作者 简介 


阿尔 。 斯 维 加 特 〈Al Sweigart) 是 一 名 软件 开发 者 和 技术 图 书 作 者 。Python 是 
他 最 喜欢 的 编程 语言 ， 他 为 Python 开发 了 几 个 开源 模块 。 他 的 其 他 著作 都 在 他 的 网 
站 Invent with Python 上 ， 以 Creative Commons 许可 证 的 方式 免费 提供 。 


技术 审 校 人 简介 


菲利普 ， 人 詹姆斯 (Philip James) 在 Python 领域 工作 了 10 多 年 ， 经 常 在 Python 
社区 发 表演 讲 。 他 的 演讲 主题 覆盖 了 从 UNIX 基 础 到 开源 社交 网 络 。 菲 利 普 是 BeeWare 
项 目的 核心 贡献 者 ， 与 他 的 搭档 尼克 (Nic) 一 起 住 在 旧金山 湾 区 。 


致谢 


在 封面 上 只 写 我 的 名 字 是 一 种 误导 。 没 有 很 多 人 的 帮助 ， 我 不 可 能 写 出 这 样 一 
本 书 。 我 想 感 谢 我 的 出 版 人 比尔 。 波 洛克 (Bill Pollock), 我 的 编辑 劳 琵 尔 ， 陈 (Laurel 
Chun)、 莱 斯 利 。 沈 (Leslie Shen)、 格 雷 格 。 普 洛斯 (Greg Poulos)、 往 姆 弗 。 格 里 
菲 斯 -德尔 加 多 〈Jennifer Griffth-Delgado) 和 弗朗西斯 。 索 克 斯 (Frances Saux )， 
以 及 No Starch Press 的 其 他 工作 人 员 ， 感 谢 他 们 非常 宝贵 的 帮助 。 感 谢 我 的 技术 审 
校 奥 里 。 拉 森 思 基 (Ari Lacenski〉 和 菲利普 ， 人 詹姆斯 (Philip James)， 他 们 提供 了 
极 好 的 建议 和 文 持 。 

非常 感谢 Python 软件 基金 会 的 每 个 人 ， 感 谢 他 们 了 不 起 的 工作 。Python 社区 
是 我 在 业界 看 到 的 最 佳 社区 。 

最 后 ， 我 要 感谢 我 的 家 人 和 朋友 ， 以 及 在 Shotwell 的 伙伴 ， 他 们 不 介意 我 在 写 
这 本 书 时 非常 忙碌 的 状态 。 


本 书 赞 誉 


“编程 最 美妙 的 地 方 在 于 看 到 机 器 去 做 一 些 有 意义 的 事情 。 本 书 便 是 用 一 个 个 

小 小 的 任务 来 描绘 编程 ， 将 枯燥 的 知识 化 作乐 趣 。” 
Hilary Mason，Fast Forward 实验 室 的 创始 人 
Accel 合伙 公司 的 数据 科学 家 


“如 果 你 想 通 过 使 用 编程 来 自动 化 工作 流程 ， 那 么 本 书 是 一 个 很 好 的 起 点 。 我 
强烈 推荐 。” 


Network World 网 站 


“本 书 易 于 理解 、 便 于 学 习 ， 是 指导 计算 机 完成 繁琐 工作 的 完美 手册 。” 
一 一 Games Fiends 网 站 


“本 书 非 常 适 合 那些 不 想 在 琐碎 任务 上 花费 大 量 时 间 的 人 。?” 


GeekMom 网 站 
“无 论 你 喜欢 通过 图 书 还 是 视频 来 学 习 ， 本 书 都 能 快速 地 让 你 使 用 Python 进行 

高 效 的 工作 。” 
一 一 JInforWorld 网 站 


“本 书 是 学 习 Python 的 最 优秀 的 图 书 之 一 。” 
一 一 FlickThrough 评论 


“本 书 帮 我 从 枯燥 的 审计 任务 中 解脱 出 来 。 通 过 学 习 本 书 ， 我 使 用 编程 完成 了 
我 大 部 分 的 工作 。 本 书 是 值得 每 个 人 都 拥有 的 一 本 好 书 。” 
一 一 一 名 审计 师 的 评论 


ll 


有 


“你 在 两 小 时 里 完成 的 事 ， 我 们 3 个 人 要 做 两 天 。”21 世纪 早期 我 的 大 学 室友 在 一 个 电子 
产品 零售 商店 工作 。 商 店 偶尔 会 处 理 一 份 电子 表格 ， 其 中 包含 来 自 其 他 商店 的 数 千 种 产品 的 价 
格 。 由 3 个 员工 组 成 的 团队 ， 会 将 这 份 电子 表格 打印 在 一 登 厚 厚 的 纸 上 ， 然 后 3 个 人 分 别处 理 
一 部 分 。 针 对 每 种 产品 ， 他 们 会 查看 自己 商店 的 价格 ， 并 找 出 售 价 更 低 的 所 有 竞争 对 手 。 这 通 
常会 伦 几 天 的 时 间 。 

“如 果 你 有 打印 件 的 原始 文件 ， 我 会 写 一 个 程序 来 做 这 件 事 。” 我 的 室友 告诉 他 们 ， 当 时 他 
看 到 他 们 坐 在 地 板 上 ， 周 围 都 是 散落 、 堆 登 的 纸张 。 

几 小 时 后 ， 他 写 了 一 个 简短 的 程序 ， 从 文件 中 读 取 竞 争 对 手 的 价格 ， 在 商店 的 数据 库 中 找 
到 相应 产品 ， 并 记录 竞争 对 手 的 价格 是 否 更 便宜 。 他 当时 还 是 编程 新 手 ， 花 了 许多 时 间 在 一 本 
编程 书 中 查看 文档 。 实 际 上 程序 运行 只 花 了 几 秒 时 间 。 我 的 室友 和 他 的 同事 们 那天 享受 了 超 长 
的 午餐 时 间 。 

这 就 是 计算 机 编程 的 威力 。 计 算 机 就 像 瑞士 军刀 ， 可 以 用 来 完成 数 不 清 的 任务 。 许 多 人 论 
上 数 小 时 单 击 鼠 标 和 敲打 键盘 ,执行 重复 的 任务 ， 却 没 有 意识 到 ， 如 果 他 们 给 机 器 正确 的 指令 ， 
机 器 就 能 在 几 秒 内 完成 他 们 的 工作 。 


本 书 的 读者 对 象 


软件 是 我 们 今天 使 用 的 许多 工具 的 核心 : 几乎 每 个 人 使 用 社交 网 络 进行 交流 ， 许 多 人 有 连 
接 因 特 网 的 计算 机 ， 大 多 数 办 公 室 工作 需要 操作 计算 机 来 完成 。 因 此 ， 现 在 社会 对 编程 人 才 的 
需求 暴涨 。 无 数 的 图 书 、 交 互 式 网 络 教程 和 开发 者 新 兵 训练 营 承 诺 将 有 雄心 壮志 的 初学 者 变 成 
软件 工程 师 ， 让 他 们 获得 6 位 数 的 新 水 。 

本 书 不 是 针对 这 些 人 的 ， 而 是 针对 所 有 其 他 的 人 。 

就 本 书 来 说 , 它 不 会 让 你 变 成 一 个 职业 软件 开发 者 , 就 像 学 习 几 节 吉 他 课程 不 会 让 你 变 成 
一 名 摇滚 明星 一 样 。 但 如 果 你 是 办 公 室 职员 、 管 理 者 、 学 术 研 究 者 ， 或 其 他 任何 使 用 计算 机 
来 工作 或 娱乐 的 人 ， 通 过 本 书 ， 你 将 学 到 编程 的 基本 知识 ， 这 样 就 能 将 下 面 这 些 简单 的 任务 
自动 化 。 

回 : 移动 并 重 命名 几 千 个 文件 ， 将 它们 分 类 ， 并 放 入 文件 夹 。 

日 填写 在 线 表 单 ， 但 不 需要 打字 。 

口 在 网 站 更 新 时 ， 从 网 站 下 载 文 件 或 复制 文本 。 


2 前 高 


口 让 计算 机 向 客户 发 出 短信 通知 。 

口 更 新 或 格式 化 Excel 电子 表格 。 

口 检查 电子 邮件 并 发 出 预先 写 好 的 回复 。 

对 人 来 说 ， 这 些 任 务 简 单 ， 但 很 花 时 间 。 它 们 通常 很 琐碎 、 很 特殊 ， 没 有 现成 的 软件 可 以 
完成 。 但 是 ， 拥 有 一 点 编程 知识 ， 就 可 以 让 计算 机 为 你 完成 这 些 任务 。 


编程 规范 


本 书 没有 设计 成 参考 手册 ， 它 是 初学 者 指南 。 编 程 风 格 有 时 候 违 反 最 佳 实践 (例如 有 些 程 
序 使 用 全 局 变量 ), 但 这 是 一 种 折 中 方式 ， 可 以 让 代码 更 简单 ， 以 便 学 习 。 本 书 的 目的 是 让 人 人们 
编写 用 完 即 抛弃 的 代码 ， 所 以 不 用 花 太 多 时 间 来 关注 风格 和 优雅 。 复 杂 的 编程 概念 (如 面向 对 
象 编程 、 列 表 推 导 和 生成 器 ) 在 本 书 中 也 没有 出 现 ， 因 为 它们 增加 了 复杂 性 。 编 程 老手 可 能 会 
指出 ， 本 书 中 的 代码 可 以 修改 得 更 有 效率 ， 但 本 书 主要 考虑 的 是 用 最 少 的 工作 量 得 到 能 工作 的 
程序 。 


什么 是 编程 


在 电视 剧 和 电影 中 , 我 们 常常 看 到 程序 员 在 闪光 的 屏幕 前 迅速 地 输入 密码 般 的 一 串 1 和 0， 
但 现代 编程 没有 这 么 神秘 。“ 编 程 ”就 是 输入 指令 让 计算 机 来 执行 。 这 些 指 令 可 能 用 于 运算 一 些 
数字 、 修 改 文本 、 在 文件 中 查找 信息 ， 或 通过 因特网 与 其 他 计算 机 通信 。 

所 有 程序 都 使 用 基本 指令 作为 构件 块 。 下 面 是 一 些 常用 的 指令 , 是 用 自然 语言 的 形式 表示 的 。 

口 “做 这 个 ， 然 后 做 那个 。” 

口 “如 果 这 个 条 件 为 真 ， 执 行 这 个 动作 ; 否则 ， 执 行 那个 动作 。” 

口 “ 按 照 指 定 次 数 执行 这 个 动作 。” 

DO “一 直 做 这 个 ， 直 到 条 件 为 真 。” 

你 也 可 以 组 合 这 些 构件 块 ， 以 实现 更 复杂 的 功能 。 例 如 ， 下 列 所 示 的 是 一 些 编程 指令 ， 称 
为 “ 源 代码 ”， 是 用 Python 编程 语言 编写 的 一 个 简单 程序 。Python 软件 从 头 开始 执行 每 行 代码 
(有些 代码 只 有 在 特定 条 件 为 真 时 才 执 行 , 为 假 时 Python 会 执行 男 外 一 些 代码 ), 直到 代码 结束 。 


0 passwordFile = open('SecretPasswordFile.txt') 
©@ secretPassword = passwordFile.read!() 
© print('Enter your password.') 
typedPassword = input() 
@ if typedPassword == secretPassword: 
© print('Access granted ' ) 
©@ if typedPassword == '12345 ' : 
@ print( "That password is one that an idiot puts on their luggage.') 
else: 
@ print('Access denied') 


你 可 能 对 编程 一 无 所 知 ， 但 读 了 上 面 的 代码 ， 也 许 就 能 够 猜测 它 做 的 事 了 。 首 先 ， 打 开 了 
文件 SecretPasswordFile.txt @， 读 取 了 其 中 的 口令 @@。 然 后 ， 提 示 用 户 〈 通 过 键盘 ) 输入 一 个 口 
人 科目。 比较 这 两 个 口令 @， 如 果 它 们 一 样 ， 程 序 就 在 屏幕 上 输出 Access granted@。 接 下 来 ， 程 


> 
月 


gl 


3 


序 检查 口令 是 否 为 12345@, 提示 说 这 可 能 并 不 是 最 好 的 口令 @ 。 如 果 口 令 不 一 样 , 程序 就 在 屏 
幕 上 输出 Access denied @。 


什么 是 Python 


Python 指 的 是 Python 编程 语言 (包括 语法 规则 ， 用 于 编写 被 认为 是 有 效 的 Python 代码 ); 也 
指 Python 解释 器 软件 ， 它 读 取 源 代码 (用 Python 语言 编写 )， 并 执行 其 中 的 指令 。Python 解释 器 
可 以 从 Python 的 官方 网 站 免费 下 载 ,有 针对 Linux 操作 系统 .macOS 和 Windows 操作 系统 的 版 本 。 

Python 的 名 字 来 自 超 现实 主义 的 英国 喜剧 团体 ， 而 不 是 来 自 蛇 。Python 程序 员 被 亲切 地 称 
为 Pythonistas。Monty Python 和 与 蛇 相 关 的 引用 常常 出 现在 Python 的 指南 和 文档 中 。 


程序 员 不 需要 知道 太 多 数学 知识 


' 我 听 到 的 关于 学 习 编 程 的 最 常见 的 顾虑 ， 就 是 人 们 认为 这 需要 很 多 数学 知识 。 其 实 ， 大 多 
数 编程 需要 的 数学 知识 不 外 乎 基本 算术 运算 。 实 际 上 ， 善 于 编程 与 善于 解决 数 独 问 题 没 有 太 大 
差别 。 

要 解决 数 独 问题 ， 数 字 1 一 9 必须 填 入 9x9 棋盘 的 每 一 行 、 每 一 列 ， 以 及 每 个 3x3 的 内 部 
方块 。 系 统 提 供 了 一 些 数字 来 帮助 你 开始 ， 然 后 你 可 以 根据 这 些 数 字 进 行 推算 ， 从 而 找到 答案 。 
例如 ， 在 图 0-1 的 数 独 问 题 中 ， 既 然 5 出 现在 了 第 1 行 和 第 2 行 ， 它 就 不 能 在 这 些 行 中 再 次 出 
现 。 因 此 ， 在 右上 角 的 3x3 方块 中 ， 它 必定 在 第 3 行 ， 由 于 整个 网 格 的 最 后 一 列 已 有 了 $， 所 
以 在 右上 角 的 3x3 方块 中 ，5 就 不 能 在 6 的 右边 。 每 次 解决 一 行 、 一 列 或 一 个 方块 ， 将 为 剩 下 
的 部 分 提供 更 多 的 数字 线索 。 随 着 你 填 入 一 组 数字 1 一 9， 然 后 再 填写 另 一 组 数字 ， 整 个 网 格 很 
快 就 会 被 填 满 。 
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图 0-1 一 个 新 的 数 独 问 题 (左边 ) 及 其 答案 (右边 )。 尽管 使 用 了 数字 ， 
但 数 独 并 不 需要 太 多 数学 知识 
数 独 虽然 使 用 了 数字 ， 但 并 不 意味 着 必须 精通 数学 才能 求 出 答案 。 编 程 也 是 这 样 。 就 像 解 
决 数 独 问题 一 样 ， 编 程 需要 将 一 个 问题 分 解 为 单个 的 、 详 细 的 步骤 。 类 似 地 ， 在 “调试 ”程序 
( 即 寻 找 和 修复 错误 ) 时 ,你 会 耐心 地 观察 程序 在 做 什么 ， 找 出 出 现 错误 的 原因 。 像 所 有 技能 一 
样 ， 编 写 的 程序 越 多 ， 你 掌握 得 就 越 好 。 
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你 还 没有 老 到 不 能 学 习 编 程 


我 听 到 的 关于 编程 的 第 二 常见 的 焦虑 是 ， 认 为 自己 太 老 了 ， 无 法 学 习 编 程 。 我 见 到 许多 人 
在 网 上 发 表 了 评论 ， 他 们 认为 编程 对 自己 来 说 为 时 已 晚 ， 因 为 他 们 已 经 23 岁 了 。 显 然 ， 这 并 不 
是 因 太 “ 老 ” 而 无 法 学 习 编程 : 许多 人 在 晚年 生活 也 能 学 到 很 多 东西 。 

要 成 为 一 名 有 能 力 的 程序 员 ， 你 不 需要 从 小 就 开始 。 但 是 ， 程 序 员 像 神 童 一 般 的 形象 反复 
出 现 。 不 幸 的 是 ， 当 我 告诉 别人 我 从 小 学 就 开始 编程 时 ， 我 也 为 这 个 神话 做 出 了 页 献 。 

但 是 ， 如 今 的 编程 比 20 世纪 90 年 代 更 容易 学 习 。 今 天 ， 有 更 多 的 书 、 更 好 的 搜索 引擎 以 
及 更 多 的 在 线 问答 网 站 。 最 重要 的 是 ， 编 程 语言 本 身 更 加 易于 使 用 。 由 于 这 些 原因 ， 现 在 大 约 
用 12 个 周末 ， 就 可 以 了 解 我 从 小 学 到 高 中 毕业 学 到 的 编程 知识 。 我 领先 得 并 不 是 太 多 。 

对 编程 抱 有 “成 长 心态 ”很 重要 ， 换 言 之 ， 要 明 白人 们 是 通过 实践 来 培养 编程 技能 的 。 
他 们 不 是 生来 就 是 程序 员 ， 现 在 不 具备 编程 技能 ， 并 不 表示 永远 无 法 成 为 专家 。 


编程 是 创造 性 活动 


编程 是 一 项 创造 性 活动 ， 就 像 绘画 、 写 作 、 编 织 或 用 积木 构建 一 个 城堡 。 就 像 在 一 张 空 白 
画布 上 绘画 ， 制 作 软 件 虽 然 有 许多 限制 ， 但 有 无 限 的 可 能 。 

编程 与 其 他 创造 性 活动 的 不 同 之 处 在 于 ， 在 编程 时 ， 你 需要 的 所 有 原材料 都 在 计算 机 中 ， 
你 不 需要 购买 额外 的 画布 、 颜料 、 胶 片 、 纱 线 、 积 木 或 电子 器 件 等 。 一 台 10 年 前 的 老 旧 计算 机 ， 
对 于 编写 程序 来 说 己 经 足够 强大 ， 绰 绰 有 余 。 在 程序 写 好 后 ， 它 可 以 被 完美 地 复制 无 数 次 。 编 
织 的 毛衣 一 次 只 能 给 一 个 人 穿 ， 但 有 用 的 程序 很 容易 在 线 分 享 给 整个 世界 。 


本 书简 介 


本 书 的 第 一 部 分 介绍 Python 的 基本 编程 概念 ; 第 二 部 分 介绍 一 些 不 同 的 任务 ， 你 可 以 让 计 
算 机 自动 完成 它们 。 第 二 部 分 的 每 一 章 都 有 一 些 项 目 程序 ， 供 你 学 习 。 下 面 简单 介绍 一 下 每 章 
的 内 容 。 


第 一 部 分 : -Python 编程 基础 


“第 1 章 Python 基础 ” 介绍 表达 式 、 Python 指令 的 最 基本 类 型 ， 以 及 如 何 使 用 Python 交 
互 式 环境 来 尝试 运行 代码 。 
“第 2 章 ”控制 流 ” 解 释 如 何 让 程序 决定 执行 哪些 指令 ,以 便 代码 能 够 智能 地 响应 不 同 的 
情况 。 
“第 3 章 函数 ”介绍 如 何 定义 自己 的 函数 ， 以 便 将 代码 组 织 成 可 管理 的 部 分 。 
“第 4 章 列表 ”介绍 列表 数据 类 型 ， 解 释 如 何 组 织 数据 。 
“第 5 章 ”字典 和 结构 化 数据 ”介绍 字典 数据 类 型 ， 展 示 更 强大 的 数据 组 织 方法 。 
“第 6 章 ”字符 串 操 作 ” 介 绍 处 理 文本 数据 (在 Python 中 称 为 “字符 串 ”) 的 方法 。 
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“第 - 7 章 模式 匹配 与 正则 表达 式 ”， 介绍 ， 如 何 用 正则 表达 趟 处 理 字符 时 以 及 查找 
文本 模式 。 

“第 8 章 ”输入 验证 ”解释 程序 如 何 验 证 用 户 提供 的 信息 , 确保 用 户 数据 到 达 时 的 格式 不 会 
在 程序 的 其 余部 分 引起 错误 。 

“第 9 章 读 写 文件 ”解释 程序 如 何 读 取 文 本 文件 的 内 容 ， 并 将 信息 保存 到 硬盘 的 文件 中 。 

“第 10 章 组 织 文 件 ” 展 示 Python 如 何 用 比 手动 操作 快 得 多 的 速度 复制 、 移 动 、 重 命名 和 
删除 大 量 的 文件 ， 也 解释 如 何 用 Python 压缩 和 解压 缩 文件 。 

“第 11 章 调试 ”展示 如 何 使 用 Python 的 bug 查找 和 bug 修复 工具 。 

“第 12 章 从 Web 抓 取信 息 ” 展 示 如 何 通 过 编程 来 自动 下 载 网 页 , 并 解析 它们 ,获取 信息 。 

“第 13 章 处 理 Excel 电子 表格 ”介绍 通过 编程 处 理 Excel 电子 表格 的 方法 。 如 果 你 分 
析 的 文档 很 少 ， 那 么 你 不 必 阅 读本 章 。 如 果 你 必须 分 析 成 百 上 干 的 文档 ， 这 章 知 识 是 很 有 
帮助 的 。 

“第 14 章 ”处理 Google 电子 表格 ”介绍 如 何 使 用 Python 读 取 和 更 新 Google 表格 (一 种 流 
行 的 基于 Web 的 电子 表格 应 用 程序 )。 

“第 15 章 ”处理 PDF 和 Word 文档 ”介绍 通过 编程 处 理 PDF 和 Word 文档 的 方法 。 

“第 16 章 处 理 CSV 文件 和 JSON 数据 ”解释 如 何 编程 处 理 CSV 文件 和 JSON 数据 。 

“第 17 章 保持 时 间 、 计 划 任 务 和 启动 程序 ”解释 Python 程序 如 何 处 理 时 间 和 上 日期， 如何 
安排 计算 机 在 特定 时 间 内 执行 任务 。 这 一 章 也 展示 Python 程序 如 何 启 动 非 Python 程序 。 

“第 18 章 ”发送 电子 邮件 和 短信 ”解释 如 何 通 过 编程 来 发 送 电子 邮件 和 短信 。 

“第 19 章 操作 图 像 ” 解 释 如 何 通过 编程 来 操作 JPG 或 PNG 等 格式 的 图 像 。 

“第 20 章 用 GUI 自动 化 控制 键盘 和 鼠标 ”解释 如 何 通过 编程 控制 鼠标 和 键盘 ， 自 动 化 鼠 
标点 击 和 按键 。 

“附录 A 安装 第 三 方 模块 ”展示 如 何 利 用 有 用 的 附加 模块 来 扩展 Python。 

“附录 B 运行 程序 ”展示 如 何在 代码 编辑 器 之 外 ， 在 Windows 操作 系统 、macOS 和 
Ubuntu Linux 操作 系统 上 运行 Python 程序 。 


下 载 和 安装 Python 


可 以 从 Python 的 官方 网 站 免费 下 载 针 对 Windows 操作 系统 、macOS 和 Ubuntu Linux 操作 
系统 的 Python 版 本 。 如 果 你 从 该 网 站 的 下 载 页 面 下载 了 最 新 的 版 本 ， 那 么 本 书 中 的 所 有 程序 应 
该 都 能 工作 。 
警告 : 请 确保 下 载 Python 3 的 版 本 ( 如 3.8.0 )。 本 书 中 的 程序 将 运行 在 Python 3 上 ， 有 一 部 分 程序 在 Python 

2 上 也 许 不 能 正常 运行 。 


你 需要 在 下 载 页 面 上 找到 针对 64 位 或 32 位 计算 机 以 及 特定 操作 系统 的 Python 安装 程序 ， 所 
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以 先 要 弄 清楚 你 需要 哪个 安装 程序 。 如 果 你 的 计算 机 是 2007 年 及 以 后 购买 的 , 很 有 可 能 是 64 位 的 
系统 ; 否则， 可 能 是 32 位 的 系统 ， 下 面 是 确认 的 方法 。 
口 在 Windows 操作 系统 上 ， 选 择 开 始 》 控 制 面板 系统 。 检 查 系 统 类 型 是 64 位 还 是 32 位 。 
口 在 macOS 上 , 进入 Apple 菜单 , 选择 About This Mach MoreInfoSystemReport》 Hardware， 
然后 查看 Processor Name 字段 。 如 果 是 Intel Core Solo 或 Intel Core Duo， 则 机 器 是 32 位 的 ; 
如 果 是 其 他 〈 包 括 ntel Core 2 Duo)， 则 机 器 是 64 位 的 。 
口 在 Ubuntu Linux 操作 系统 上 ， 打 开 命 令 行 窗口 ， 运 行 命令 uname -m。 结 果 是 1686 表 
示 32 位 ，x86 64 表示 64 位 。 
在 Windows 操作 系统 上 ， 下 载 Python 安装 程序 〈 文 件 扩展 名 是 .msi)， 并 双击 它 。 按 照 安 
装 程序 显示 在 屏幕 上 的 指令 来 安装 Python， 步 骤 如 下 。 
1. 选择 Install for All Users， 然 后 单 击 Next。 
2. 在 接 下 来 的 几 个 窗口 中 ， 依 次 单 击 Next， 接 受 默认 选项 。 
在 macOS 上 ， 下 载 适 合 你 的 macOS 版 本 的 .dmg 文件 ， 并 双击 它 。 按 照 安装 程序 显示 在 屏 
幕 上 的 指令 来 安装 Python， 步 骤 如 下 。 
1. 当 DMG 包 在 一 个 新 窗口 中 打开 时 ， 双 击 Python.mpkg 文件 。 你 可 能 必须 输入 管理 员 口 令 。 
2. 单 击 Continue， 跳 过 欢迎 部 分 ， 并 单 击 Agree， 接 受 许可 证 。 
3. 在 最 后 的 窗口 中 ， 单 击 Install。 
如 果 使 用 的 是 Ubuntu Linux 操作 系统 ， 可 以 从 命令 行 窗口 安装 Python， 步 骤 如 下 。 
.打开 命令 行 窗口 。 
. 输入 sudo apt-get install python3。 
. 输入 sudo apt-get install idle3。 
. 输入 sudo apt-get install python3-pip。 


下 载 和 安装 Mu 


“Python 解释 冀 ” 是 运行 Python 程序 的 软件 ， 而 “Mnu 编辑 器 软件 ” 则 是 你 输入 程序 的 地 
方 ， 这 与 你 在 文字 处 理 器 中 输入 内 容 的 方式 非常 相似 。 

在 Windows 操作 系统 和 macOS 上 下 载 适 合 你 的 操作 系统 的 安装 程序 ， 然 后 通过 双击 安装 
程序 文件 来 运行 它 。 如 果 你 使 用 的 是 macOS， 那 么 运行 安装 程序 时 会 打开 一 个 窗口 ， 你 必须 在 
其 中 将 Mu 图 标 拖 动 到 Applications 文件 夹 中 才能 继续 安装 。 如 果 你 使 用 的 是 Ubuntu Linux 操 
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作 系统 ,那么 需要 将 Mu 安装 为 Python 软件 包 。 在 这 种 情况 下 ,请 单 击 下 载 页 面 “Python Package” 


部 分 中 的 Instructions 按钮 。 
启动 Mu 


安装 完成 后 ， 让 我 们 启动 Mu。 
口 在 Windows 7 操作 系统 或 更 高 版 本 上 ， 单 击 屏幕 左下 角 的 开始 图 标 ， 在 搜索 框 中 输入 


Mu， 然 后 选择 它 。 
口 在 macOS 上 , 打开 Finder 窗口 ， 单 击 “ 应 用 程序 ”(Applications)， 然 后 单 击 mu-editor。 
口 在 Ubuntu Linux 操作 系统 上 , 选择 ApplicationshAccessorieshTerminal, 然后 输入 python3 
—m mu。 
第 一 次 运行 Mu 时 , 屏幕 将 显示 一 个 “Select Mode”( 选 择 模式 ) 窗 口 , 其 中 包含 选项 Adafruit 
CircuitPython、BBC micro:bit、Pygame Zero 和 Python 3。 选 择 Python 3。 以 后 ， 你 就 可 以 通过 
单 击 编辑 器 窗口 顶部 的 Mode 按钮 来 更 改 模式 了 。 


注意 : 你 需要 下 载 Mu 1.10.0 版 本 或 更 高 版 本 ， 这 样 才能 安装 本 书 介绍 的 第 三 方 模块 。 在 编写 本 书 时 ， 
Mu 1.10.0 是 一 个 Alpha 版 本 ， 在 下 载 页 面 上 作为 单独 链接 列 出 ， 与 主要 下 载 链接 分 开 。 


启动 IDLE 


本 书 使 用 Mu 作为 编辑 器 和 交互 式 环 境 。 但 是 , 你 可 以 使 用 各 种 编辑 器 来 编写 Python 代码 。 
“集成 开发 和 学 习 环 境 ”(IDLE) 软件 与 Python 一 起 安装 ， 如 果 出 于 某 种 原因 ， 你 不 能 安装 Mu 
或 让 它 工作 ， 那 么 IDLE 可 以 作为 另 一 个 编辑 器 。 现 在 让 我 们 启动 IDLE。 
口 在 Windows 7 操作 系统 或 更 新 的 版 本 上 ,， 单 击 屏幕 左下 角 的 开始 图 标 ， 在 搜索 框 中 输入 
IDLE， 并 选择 IDLE (Python GUI)。 

口 在 macOS 上 ， 打 开 Finder 窗口 ， 单 击 Applications， 单 击 Python 3.8， 然 后 单 击 IDLE 
的 图 标 。 

口 在 Ubuntu Linux 操作 系统 上 ， 选择 Applicationsh Accessoriesp Terminal， 然 后 输入 idle3 
(你 也 可 以 单 击 屏 幕 顶 部 的 Applications， 选 择 Programming， 然 后 单 击 IDLE 3)。 


交互 式 环境 


运行 Mu 时 ， 出 现 的 窗口 称 为 “文件 编辑 器 ”窗口 。 你 可 以 通过 单 击 REPL 按钮 打开 “ 交 
互 式 环境 ”"。 该 环境 是 一 个 程序 ， 可 以 让 你 在 计算 机 中 输入 指令 ， 就 像 在 macOS 和 Windows 操 
作 系 统 上 各 目的 “终端 ”或 “命令 提示 符 ” 中 输入 一 样 。 使 用 Python 的 交互 式 环境 ， 你 可 以 输 
入 指令 ， 让 Python 解释 器 软件 运行 它们 。 计 算 机 将 读 取 你 输入 的 指令 并 立即 运行 它们 。 

在 Mu 中 ， 交 互 式 环境 是 窗口 下 半 部 分 的 窗 格 ， 其 中 包含 以 下 文本 : 


Jupyter QtConsole 4.3.1 

Python 3.6.3. (v3.6.3:2cS5Sfed8, Oct 3 2017, 18:11:49) [NMSC v.1900 64 bit 
(AMD64) ] 

Type 'copyright', 'credits’' or "LiIicense” for more information 
IPython 6.2.1 -- An enhanced Interactive Python. Type '?' for help. 
引入 地 性 


如 果 运 行 IDLE, 则 交互 式 环境 是 第 一 个 出 现 的 窗口 。 除 了 包含 看 起 来 像 下 面 这 样 的 文本 外 ， 
大 部 分 应 该 为 空 日 : 


Python 3.8.0b1 (tags/v3.8.0b1:3b5deb0116, Jun 4 2019, 19:52:55) [MSC v.1916 


64 bit (AMD64)] on win32 
Type "help", "copyright", “credits" or "license" for more information. 


In [1]: 和 >>> 称 为 “提示 符 ”。 本 书 中 的 示例 将 用 >>> 提 示 符 表示 交互 式 环境 ， 因 为 它 更 
常见 。 如 果 你 在 命令 行 窗口 中 运行 Python， 它 们 也 会 使 用 >>> 提 示 符 。In [1] :提示 符 是 为 一 
种 流行 的 Python 编辑 器 一 一 Jupyter Notebook 发 明 的 。 

例如 ， 在 交互 式 环境 的 提示 符 后 输入 以 下 指令 : 

>>> print('Hello, world!') 


在 输入 该 行 并 按 下 回 车 键 后 ， 交 互 式 环境 将 显示 以 下 内 容 作 为 啊 应 : 


>>> print('Hello, world!') 
Hello, world! 


你 刚刚 给 计算 机 提供 了 一 条 指令 ， 它 完成 了 你 要 执行 的 操作 。 
安装 第 三 方 模块 


一 些 Python 代码 要 求 你 的 程序 导入 模块 。 其 中 一 些 模块 是 Python 附 帝 的 , 而 有 些 模 块 是 Python 
核心 开发 团队 之 外 的 开发 人 员 创 建 的 第 三 方 模块 。 附 录 A 详细 说 明了 如 何 使 用 pip 程序 (在 
Windows 操作 系统 上 ) 或 pip3 程序 (在 macOS 和 Linux 操作 系统 上 ) 安装 第 三 方 模块 。 当 本 书 要 
求 你 安装 特定 的 第 三 方 模块 时 ， 请 僵 阅 附录 A。 


如 何 寻 来 帮助 


旦 序 员 喜 欢 通过 在 因特网 上 搜索 问题 的 答案 来 学 习 。 这 不 同 于 许多 人 习惯 的 学 习 方 式 ， 即 
通过 一 名 亲 目 授课 并 可 以 回答 问题 的 老师 来 进行 学 习 。 使 用 因特网 作为 教师 的 最 大 好 处 是 ， 整 
个 社区 的 人 都 可 以 回答 你 的 问题 。 
实际 上 ， 你 的 问题 可 能 已 经 有 人 回答 了 ， 答 案 已 经 在 线 ， 等 等 你 找到 它们 。 许 多 人 都 会 
到 错误 信息 或 代码 无 法 正 第 工作 的 情况 ， 你 不 会 是 第 一 个 遇 到 这 个 问题 的 人 ， 找 到 解决 方案 上 
你 想象 的 要 容易 。 
例如 ， 让 我 们 故意 制造 一 个 错误 : 在 交互 式 环境 中 输入 '42' + 3。 你 现在 不 需要 了 解 这 条 
指令 的 含义 ， 但 结果 应 如 下 所 示 : 


>>> “2* 二 3 
@ Traceback (most recent call last): 
File "<pyshe7l#0>", line 1, in <module> 
3 
©@ TypeError: Can’‘t convert 'int' object to str implicitly 
>>> 


这 里 出 现 了 错误 信息 @， 因 为 Python 不 理解 你 的 指令 。 错 误 信 息 的 Traceback 部 分 上 显示 
了 Python 过 到 困难 的 特定 指令 和 行 号 。 如 果 你 不 知道 怎样 处 理 特定 的 错误 信息 , 就 在 线 查 找 那 条 
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错误 信息 。 在 你 喜欢 的 搜索 引擎 上 输入 “TypeError: Can't convert 'int' object to str 
implicitly”( 包 括 单 引 号 )， 你 就 会 看 到 许多 的 链接 解释 了 这 条 错误 信息 的 含义 ， 以 及 什么 原 
因 导 致 这 个 错误 ， 如 图 0-2 所 示 。 

"TypeError Can' convert int object to str implicitiy”" v a-:| 

Web Shopping images News Videos Morev Search tools 


About 2,100 results (0.31 seconds) 


python - TypeError Can't convert 'int object to str implicitly ...@ D 
i , SA i i 


sa 

Nov 30. 2012 - You cannot concatenate a string with an int. You 
would need to convert your int to string using str function, or Use 
formatting to format your output. 


TypeError Can't convert int' object to str impiicitly error pythons 5 
e-em 0 


Sep 22. 2013 - As the error message say, you can't add int 
object to str object. >>> 'str + 2 Traceback (most recent call 
last): File "<stdin>", line 1, in <module> ... 


Can't convert int object to str implicitly: Python 3+ - Stack ...¥ 9 
和 
Nov 5. 2013 - Traceback (most recent call last): File “main.py”, 
line 29, in alitrees = distinct(x+1) TypeError: Can't convert "int' 
object to str implicitiy. Python int ... 


python-forum.org * View topic - Can't convert 'int object to str ...# 9 
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图 0-2 错误 信息 的 搜索 结果 


你 弟弟 会 发 现 ， 别 人 也 遇 到 了 同样 的 问题 ， 而 其 他 乐于 助人 的 人 已 经 回答 了 这 个 问题 。 没 
有 人 知道 编程 的 所 有 知识 ， 因 此 所 有 软件 开发 者 的 日 常 工作 之 一 都 是 在 寻找 技术 问题 的 答案 。 


聪明 地 提出 编程 问题 


如 果 不 能 在 线 查 找到 答案 ， 请 尝试 在 Stack Overflow 或 Reddit 子 板块 “learn programming” 
这 样 的 论坛 上 提问 。 但 要 记 住 用 聪明 的 方式 提出 编程 问题 ， 这 有 助 于 别人 来 帮助 你 。 确 保 阅 读 
这 些 网 站 的 常见 问题 (Frequently Asked Question，FAQ)， 了 解 正确 的 提问 方式 。 

在 提出 编程 问题 时 ， 要 记 住 以 下 几 点 。 

口 说 明 你 打算 做 什么 ， 而 不 只 是 你 做 了 什么 。 这 会 让 帮助 你 的 人 知道 你 是 否 走 错 了 路 。 

口 明确 指出 发 生 错误 的 地 方 。 指 出 它 是 在 程序 每 次 局 动 时 发 生 ， 还 是 在 你 做 了 某 些 动作 之 
后 发 生 。 

口 将 完整 的 错误 信息 和 你 的 代码 复制 粘贴 到 Pastebin 或 GitHub Gist 上 。 这 些 网 站 让 你 很 
容易 地 在 网 上 与 他 人 共享 大 量 的 代码 ， 而 不 会 丢失 任何 文本 格式 。 然 后 你 可 以 将 贴 出 的 
代码 的 URL 放 在 电子 邮件 或 论坛 帖子 中 。 

口 解释 你 为 了 解决 这 个 问题 已 经 尝试 了 哪些 方法 。 这 告诉 别人 你 已 经 做 了 一 些 工作 来 弄 清 


10 前 


gu 


口 列 出 你 使 用 的 Python 版 本 (Python 2 解释 器 和 Python 3 解释 器 之 间 有 一 些 重要 的 区 别 )。 
而 且 ， 要 说 明 你 使 用 的 操作 系统 和 版 本 。 

口 如 果 错 误 在 你 更 改 了 代码 之 后 出 现 ， 准 确 说 明 你 改 了 什么 。 

口 说 明 是 否 在 每 次 运行 该 程序 时 都 会 重 现 该 错误 ; 或 者 它 只 是 在 特定 的 操作 执行 之 后 才 出 
现 ， 如 果 是 这 样 ， 解 释 是 哪些 操作 。 

口 遵守 良好 的 在 线 文明 行为 。 例 如 ， 不 要 全 用 大 写 提问 ， 或 者 对 试图 帮助 你 的 人 提出 无 理 的 
要 求 。 


起 


对 于 大 多 数 人 ， 他 们 的 计算 机 只 是 设备 ， 而 不 是 工具 。 但 通过 学 习 编 程 ， 你 就 能 利用 现代 
社会 中 强大 的 工具 ， 并 且 你 会 一 直 感 到 快乐 。 编 程 不 是 脑 外 科 手 术 ， 业 余人 士 是 完全 可 以 尝试 
和 犯错 的 。 

本 书 假定 你 编程 的 知识 为 零 ， 并 且 会 教 给 你 很 多 知识 ， 但 你 的 问题 可 能 超出 本 书 的 范围 。 
记 住 如 何 有 效 地 提问 ， 如 何 寻找 答案 ， 这 对 于 你 的 编程 之 旅 是 无 价 的 。 


4 


和 贷 产 与 支持 


本 书 由 异步 社区 出 品 ， 社 区 (https://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 服务 。 


配套 资源 


本 书 提供 如 下 资源 : 

。 本 书 源 代码 ; 

。 本 书 学 习 思 维 导 图 ; 

。 本 书 习 题 答案 ; 

国 Python 排 障 手册 。 

要 获得 以 上 配套 资源 ， 请 在 异步 社区 本 书页 面 中 单 击 攻 ES ， 跳 转 到 下 载 界面 ， 按 提示 进行 
操作 即 可 。 注 意 : 为 保证 购书 读者 的 权益 ， 该 操作 可 能 会 给 出 相关 提示 ， 要 求 输入 提取 码 进行 验证 。 


提交 勘误 


虽然 作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 朴 漏 。 欢 迎 您 将 发 现 
的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 

当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 单 击 “ 提 交 勘 误 ”， 输 入 勘 
误 信息 ， 单 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 接受 后 ， 
您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 或 奖品 。 


扫 码 关注 本 书 


与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 

如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 书 名 ， 
以 便 我 们 更 高 效 地 做 出 反馈 。 

如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 发 
邮件 给 我 们 ; 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 投 稿 (直接 访问 www.epubit.com/ 
selfpublish/submission Bh 8] )。 

如 果 您 所 在 的 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 可 
以 发 邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 部 或 部 
分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 是 对 作者 权 
益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书社 区 ， 致 力 于 出 版 精品 IT 技术 图 书 和 相关 学 
习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社区 创办 于 2015 年 8 月 ， 提 供 大 量 精品 IT 技术 图 书 
和 电子 书 , 以 及 高 品质 技术 文章 和 视频 课程 .更 多 详情 请 访问 异步 社区 官网 https:/www.epubitcom。 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 ， 依 托 于 人 民 邮 电 
出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 ， 相 关 图 书 在 封面 上 印 有 异步 图 书 的 
LOGO。 异 步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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Python 基础 


Python 编程 语言 有 许多 语法 结构 、 标 准 库 函数 和 交互 式 开 发 环境 功能 。 好 
在 你 可 以 忽略 大 多 数 内 容 ， 只 需要 学 习 部 分 内 容 , 就 能 编写 一 些 方便 的 小 程序 。 

但 在 动手 之 前 ， 你 必须 学 习 一 些 基本 编程 概念 。 就 像 魔 法 师 培 训 ， 你 可 
能 认为 这 些 概 念 既 深奥 又 嘿 唆 , 但 有 了 一 些 知识 和 实践 ， 你 就 能 像 魔法 师 一 
样 指挥 你 的 计算 机 ， 完 成 难以 置信 的 事情 。 

本 章 有 几 个 例子 , 我 们 鼓励 你 在 “交互 式 环境 ”中 输入 它们 。 交 互 式 环 
境 也 称 为 “REPL (“ 读 取 一 求 值 一 输出 ”循环 )。 交 互 式 环境 让 你 每 次 运行 
(或 “执行 ”) 一 条 Python 指令 ， 并 立即 显示 结果 。 使 用 交互 式 环境 对 于 了 
解 基本 Python 指令 的 行为 是 很 好 的 ， 所 以 你 在 阅读 时 要 试 一 下 。 做 事 比 仅 
仅 读 内 容 更 令 人 印象 深刻 。 RS 


汪 
1.1 在 交互 式 环境 中 输入 表达 式 因 
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可 以 通过 启动 Mu 编辑 器 来 运行 交互 式 环境 , 你 在 阅读 前 言 中 的 安装 说 明 :视频 讲解 
时 应 该 已 经 下 载 了 Mu 编辑 器 。 在 Windows 操作 系统 上 上， 打开“ 开始 ”菜单 ， 
输入 “Mu”， 然 后 打开 Mu 应 用 程序 。 在 macOS 上， 打开“ 应 用 程序 ”文件 夹 ， 然 后 双击 Mu; 
单 击 New 按钮 ， 然 后 将 一 个 空 文件 另存 为 blank.py; 当 你 通过 单 击 Run 按钮 或 按 F5 键 运行 这 
个 空白 文件 时 ， 它 将 打开 交互 式 环境 ， 该 环境 将 作为 一 个 新 窗 格 打 开 ， 该 窗 格 在 Mu 编辑 器 窗 
口 的 底部 打开 。 你 应 该 可 以 在 交互 式 环境 中 看 到 >>> 提 示 符 。 

在 提示 符 处 输入 2 + 2， 让 Python 做 一 些 简单 的 数学 运算 。Mnu 窗口 现在 应 如 下 所 示 : 


>>> 2 + 2 
4 
>>> 


在 Python 中 ，2 + 2 称 为 “表达 式 ” 它 是 语言 中 最 基本 的 编程 结构 。 表 达 式 包含 “ 值 ”( 例 
如 2) 和 “操作 符 ”( 例 如 +)， 并 且 总 是 可 以 “ 求 值 ”( 即 归 约 ) 为 单个 值 。 这 意味 者 在 Python 
代码 中 ， 所 有 使 用 表达 式 的 地 方 都 可 以 使 用 一 个 值 。 

在 前 面 的 例子 中 ，2 + 2 求 值 为 单个 值 4。 没 有 操作 符 的 单个 值 也 被 认为 是 一 个 表达 式 ， 
尽管 它 求 值 的 结果 就 是 它 自 己 ， 像 下 面 这 样 : 


4 


2 
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Python 表达 式 中 也 可 以 使 用 大 量 其 他 操作 符 。 例 如 ， 表 1-1 列 出 了 Python 的 所 有 数学 操 
作 符 。 


表 1-1 Python 数学 操作 符 ， 优 先 级 从 高 到 低 


操作 符 操作 例子 求 值 为 
太 奖 指数 2 8 
% 取 模 / 取 余 数 22%8 6 
// 整除 / 商 数 取 整 221/8 2 
/ 除法 2218 2.713 
乘法 和 15 
2 减法 S32 3 
加 法 时 寺 才 4 


Python 数学 操作 符 的 “操作 顺序 ”( 也 称 为 “优先 级 ”) 与 数学 中 类 似 。** 操 作 符 首先 求 值 ; 
接 下 来 是 *、/、// 和 % 操 作 符 ， 从 左 到 右 ; + 和 -操作 符 最 后 求 值 ， 也 是 从 左 到 右 。 如 果 需 要 ， 可 
以 用 括号 来 改变 通常 的 优先 级 。 运 算 符 和 值 之 间 的 空格 对 于 Python 无 关 紧 要 《〈 行 首 的 缩 进 除 
外 )， 但 是 惯例 是 保留 一 个 空格 。 在 交互 式 环境 中 输入 下 列表 达 式 : 


3 

20 

2 (生计 

30 

>>> 48565878 * 578453 
28093077826734 

>>> 2 ww 8 

256 

2 
3.2857142857142856 

- 

3 

>>> 23 和 5 7 

2 

>>> 2 + 2 

4 
we 
16.0 


一 
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在 每 个 例子 中 ， 作 为 程序 员 ， 你 必须 输入 表达 式 ， 由 Python 完成 较 难 的 工作 ， 将 它 求 值 
为 单个 值 。Python 将 继续 对 表达 式 的 各 个 部 分 进行 求 值 ， 直 到 它 成 65 -0 。 (0 + D 7G-a) 
为 单个 值 ， 如 右 所 示 。 

将 操作 符 和 值 放 在 一 起 构成 表达 式 的 这 些 规则 ， 是 Python 编程 
语言 的 基本 部 分 ， 就 像 帮助 我 们 沟通 的 语法 规则 一 样 。 下 面 是 例子 。 4*((8 )/(3-1)) 

This is a grammatically correct English sentence. ， 

This grammatically is sentence not English correct a. 

第 二 行 很 难 解释 ， 因 为 它 不 符合 自然 语言 的 规则 。 类 似 地 ， 如 果 4 * 4.0 
你 输入 错误 的 Python 指令 ，Python 也 不 能 理解 ， 就 会 显示 出 错误 信 
息 ， 像 下 面 这 样 : 


>>> 与 二 
File "<stdin>", line 1 
5 十 


se OF 
,i 


16.0 


SyntaxError: invalid syntax 
>>> 42 + 5+*2 
File "<stdin>", line 1 
4 


SyntaxError: invalid syntax 


你 总 是 可 以 在 交互 式 环境 中 输入 一 条 指令 ， 检 查 它 是 否 能 工作 。 不 要 担心 会 弄 坏 计算 机 : 
最 坏 的 情况 就 是 Python 显示 错误 信息 。 专 业 的 软件 开发 者 在 编写 代码 时 , 常常 会 遇 到 错误 信息 。 


1.2 ” 整 型 、 浮 点 型 和 字符 串 数据 类 型 


记 住 , 表达 式 是 值 和 操作 符 的 组 合 , 它们 可 以 通过 求 值 成 为 单个 值 . “数据 类 型 ”是 一 类 值 ， 
每 个 值 都 只 属于 一 种 数据 类 型 。 表 1-2 列 出 了 Python 中 最 常见 的 数据 类 型 。 例 如 ， 值 ~2 和 30 
属于 “ 整 型 ” 值 。 整 型 (或 int) 表明 值 是 整数 。 带 有 小 数 点 的 数 ， 如 3.14， 称 为 “ 浮 点 型 ”( 或 
float)。 请 注意 ， 尽 管 42 是 一 个 整 型 ， 但 42.0 是 一 个 浮 点 型 。 


表 1-2 常见 数据 类 型 


数据 类 型 例子 

整 型 一 2 、 一 、 0、 Ds 人 六。 E 全 4、 3 

浮 点 型 —].25、 一 1.0、-0.5、0.0、0.5、1.0、1.25 
字符 串 ‘a、'aa'、'aaa'、'Hello!'、']] cats’ 


Python 程序 也 可 以 有 文本 值 ， 称 为 “字符 串 ” 或 strs 发音 为 “stirs”*)。 总 是 用 单 引号 《') 
包围 住 字符 串 (例如 'Hello' 或 'Goodbye my friend!')， 这 样 Python 就 能 判断 字符 串 的 开 
始 和 结束 。 甚 至 可 以 有 没有 字符 的 字符 串 ， 称 为 “ 空 字 符 串 ”或 “ 空 串 ”。 第 6 章 将 更 详细 地 解 
释 字 符 串 。 

如 果 出 现 错误 信息 SyntaxError: EOL while scanning string literal， 可 能 是 
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怎 了 字符 串 末 尾 的 单 引号 ， 如 下 面 的 例子 所 示 : 


>>> 'Hello world! 
SyntaxError: EOL while scanning string literal 
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根据 操作 符 之 后 的 值 的 数据 类 型 ， 操 作 符 的 含义 可 能 会 改变 。 例 如 ， 在 操作 两 个 整 型 或 浮 
点 型 值 时 ，+ 是 相 加 操作 符 ; 但 是 ， 在 用 于 两 个 字符 串 之 间 时 ， 它 将 字符 串 连接 起 来 ， 成 为 “ 字 
符 串 连接 ”操作 符 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> 'Alice' + ‘Bob'’ 
'AliceBob' 


该 表达 式 求 值 为 一 个 新 字符 串 ， 包 含 了 两 个 字符 串 的 文本 。 但 是 ， 如 果 你 对 一 个 字符 串 和 
一 个 整 型 值 使 用 + 操作 符 ，Python 就 不 知道 如 何 处 理 ， 它 将 显示 一 条 错误 信息 : 

>>> 'Alice' + 42 

Traceback (most recent call last): 

File "<pyshell#26>", line 1, in <module> 
'Alice' + 42 

TypeError: can only concatenate str (not "int") to str 

错误 信息 Can only concatenate str(not "int")to str 表示 Python 认为 你 试图 将 一 
个 整数 连接 到 字符 串 'Alice' 。 代 码 必须 显 式 地 将 整数 转换 为 字符 串 ， 因 为 Python 不 能 自动 完成 
转换 。(1.6 节 “ 程 序 剖 析 ” 在 讨论 str() 、int() 和 Tfloat() 函 数 时 ， 将 解释 数据 类 型 转换 。) 

* 操 作 符 将 两 个 整 型 或 浮 点 型 值 相 乘 。 但 如 果 * 操 作 符 用 于 一 个 字符 串 值 和 一 个 整 型 值 ， 它 
就 变 成 了 “字符 串 复 制 ” 操 作 符 。 在 交互 式 环境 中 输入 一 个 字符 串 乘 以 一 个 数字 ， 效 果 如 下 : 


了 工人 人 
'AliceAliceAliceAliceAlice' 


该 表达 式 求 值 为 一 个 字符 串 ， 它 将 原来 的 字符 串 复制 者 干 次 ， 次 数 就 是 整 型 的 值 。 字 符 串 
复制 是 一 个 有 用 的 技巧 ， 但 不 像 字 符 串 连接 那样 常用 。 

* 操 作 符 只 能 用 于 两 个 数字 〔( 作 为 乘法 ), 或 一 个 字符 串 和 一 个 整 型 值 (作为 “字符 串 复制 ” 
操作 符 )。 和 否则 ，Python 将 显示 错误 信息 ， 像 下 面 这 样 : 


>>> 'Alice' * ‘Bob' 
Traceback (most recent call last): 
File "<pyshell#32>", line 1, in <module> 
'Alice' * 'Bob' 
TypeError: can't multiply Sequence by non-int of type 'str' 
XDA “ACE * 5.0 
Traceback (most recent call last): 
File "<pyshell#33>", line 1, in <module> 
i 


TypeError: can multiply sequence by non-int of type ‘float' 
Python 不 理解 这 些 表 达 式 是 有 道理 的 : 你 不 能 把 两 个 单词 相 乘 ， 也 很 难 将 一 个 任意 字符 串 
复制 小 数 次 。 
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1.4 在 变量 中 保存 值 


“变量 ”就 像 计算 机 内 存 中 的 一 个 盒子 ， 其 中 可 以 存放 一 个 值 。 如 果 你 的 程序 稍 后 将 用 到 一 
个 已 求 值 的 表达 式 的 结果 ， 就 可 以 将 它 保 存在 一 个 变量 中 。 


1.4.1 赋值 语句 


用 “赋值 语句 ”将 值 保存 在 变量 中 。 赋 值 语 句 包含 一 个 变量 名 、 一 个 等 号 〈 称 为 “赋值 操 
作 符 ”)， 以 及 要 存储 的 值 。 如 果 输 入 赋值 语句 spam = 42， 那 么 名 为 spam 的 变量 将 保存 一 个 
整 型 值 42。 

可 以 将 变量 看 成 一 个 带 标签 的 盒子 ， 值 放 在 其 中 ， 如 图 1-1 所 示 。 

例如 ， 在 交互 式 环境 中 输入 以 下 内 容 : 


©@ >>> Spam = 40 

>>> Spam 

40 

>>> eggs = 学 

>>> Spam + eggs 

42 

>>> Spam + eggs + spam 

82 

© >>> Spam = Spam + 2 
>>> Spam 
42 


第 一 次 存 入 一 个 值 ， 变 量 就 被 “初始 化 ”或 创建 》@。 此 后 ， 可 以 在 表达 式 中 使 用 它 ， 以 
及 其 他 变量 和 值 @。 如 果 变 量 被 赋 了 一 个 新 值 ， 老 值 就 被 态 记 了 全 。 这 就 是 为 什么 在 例子 结束 
时 ，spam 求 值 为 2， 而 不 是 40。 这 称 为 “ 履 写 ”该 变量 。 在 交互 式 环境 中 输入 以 下 代码 ， 艾 
试 覆 写 一 个 字符 串 : 

>>> Spam = 'Hello' 

>>> Spanm 

'Hello' 

>>> spam = 'Goodbye' 

>>> spam 

‘Goodbye 


就 像 图 1-2 所 示 的 盒子 ， 这 个 例子 中 的 spam 变量 保存 了 'Hello'， 直 到 你 用 'Goodbye' 
替代 它 。 


图 1-1 spam = 42 就 像 是 告诉 程序 图 1-2 一 个 新 值 赋 给 变量 ， 
“变量 spam 现在 有 整 型 值 42 放 在 里 面 ” 老 值 就 被 遗志 了 


1.4.2 ”变量 名 


好 的 变量 名 描述 了 它 包 含 的 数据 。 设 想 你 搬 到 一 间 新 屋子 ， 搬 家 纸箱 上 标的 都 是 “东西 ” 
这 让 你 找 不 到 任何 东西 。 本 书 的 例子 和 许多 Python 的 文档 使 用 spam、eggs 和 bacon 等 变量 
名 作为 一 般 名 称 〈 受 到 Monty Python 的 “Spam” 短 剧 的 影响 )， 但 在 你 的 程序 中 ， 使 用 描述 性 
名 字 有 助 于 提高 代码 可 读 性 。 

尽管 你 几乎 可 以 为 变量 任意 命名 ， 但 是 Python 确实 有 一 些 命名 限制 。 表 1-3 中 有 一 些 有 效 的 和 
无 效 的 变量 名 的 例子 。 你 可 以 给 变量 取 任 何 名 字 ， 只 要 它 遵 守 以 下 3 条 规则 。 


表 1-3 有 效 和 无 效 的 变量 名 


有 效 的 变量 名 无 效 的 变量 名 
current_ balance current-balance 〈 不 允许 短 横 线 ) 
currentBalance current balanc 〈 不 允许 空格 ) 
account4 4account (不 允许 数字 开头 ) 

_42 42《〈 不 允许 数字 开头 ) 
TOTAL SUM TOTAL $UM (不 允许 $ 这 样 的 特殊 字符 ) 
hello hello' (不 允许 ' 这 样 的 特殊 字符 ) 


1. 只 能 是 一 个 词 ， 不 带 空格 。 

2. 只 能 包含 字母 、 数 字 和 下 划 线 ( ) 字符 。 

3. 不 能 以 数字 开头 。 

变量 名 是 区 分 大 小 写 的 。 这 意味 着 ，spam、SPAM、Spam 和 sPaM 是 4 个 不 同 的 变量 。 尽 
管 Spam 是 一 个 有 效 的 变量 ， 你 可 以 在 程序 中 使 用 ， 但 变量 用 小 写字 和 母 开 头 是 Python 的 惯例 。 

本 书 的 变量 名 使 用 了 “驼峰 形式 ”， 没 有 用 下 划 线 。 也 就 是 说 ， 变 量 名 用 lookLikeThis， 
而 不 是 looking_like_this。 一 些 有 经 验 的 程序 员 可 能 会 指出 ， 官 方 的 Python 代码 风格 为 
PEP 8， 即 应 该 使 用 下 划 线 。 一 致 地 满足 风格 指南 是 重要 的 。 但 最 重要 的 是 知道 何 时 要 不 一 致 ， 
因为 有 时 候 风 格 指南 就 是 不 适用 。 如 果 有 怀疑 ， 请 相信 自己 的 最 佳 判断 。 


1.5 第 一 个 程序 


虽然 交互 式 环境 一 次 运行 一 条 Python 指令 很 好 ， 但 要 编写 完整 的 Python 程序 ， 就 需要 在 
文件 编辑 器 中 输入 指令 。“ 文 件 编辑 器 ”类 似 于 Notepad 或 TextMate 这 样 的 文本 编辑 器 ， 它 有 
一 些 针 对 输入 源 代 码 的 特殊 功能 。 要 在 Mu 中 打开 新 文件 ， 请 单 击 顶部 的 New 按钮 。 

出 现 的 窗口 中 应 该 包含 一 个 光标 ， 等 待 你 输入 ,但 它 与 交互 式 环 境 不 同 。 在 交互 式 环境 中 ， 
按 回 车 键 就 会 执行 Python 指令 。 文 件 编辑 器 允许 输入 多 条 指令 ， 将 指令 保存 为 文件 ， 并 运行 该 
文件 。 下 面 是 区 别 这 两 者 的 方法 。 

交互 式 环境 窗口 总 是 有 >>> 提 示 符 。 
口 文件 编辑 器 窗口 没有 >>> 提 示 符 。 
现在 创建 第 一 个 程序 。 打 开 文 件 编 辑 器 窗口 后 ， 输 入 以 下 内 容 : 
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© # This program says hello and asks for my name. 


四 print('Hello, world!') 
print('What is your name?') # ask for their name 
© myName = input() 
@ print('It is good to meet you, "+ myName) 
© print('The length of your name is:') 
print (len(myName)) 
© print('What is your age?') # ask for their age 
myAge = input() 
print('You will be '+ str(int(myAge) + 1) + ' in a year.') 


在 输入 完 源 代码 后 保存 它 , 就 不 必 在 每 次 启动 Mu 时 重新 输入 。 单 击 Save 按钮 ,在 File Name 
字段 后 输入 hello.py， 然 后 单 击 Save 按钮 。 

在 输入 程序 时 ， 应 该 过 一 段 时 间 就 保存 你 的 程序 。 这 样 ， 如 果 计 算 机 崩溃 ， 或 者 不 小 心 退 
出 了 Mu， 也 不 会 丢失 代码 。 可 以 在 Windows 操作 系统 和 Linux 操作 系统 上 按 Ctrl-S 快捷 键 ， 
在 macOS 上 按 Command-S 快捷 键 来 保存 文件 。 

在 保存 文件 后 ， 让 我 们 来 运行 程序 。 按 FS 键 ， 程 序 将 在 交互 式 环 境 窗口 中 运行 。 记 住 ， 
必须 在 文件 编辑 器 窗口 中 按 F5 键 ， 而 不 是 在 交互 式 环境 窗口 中 。 在 程序 要 求 输入 时 ， 输 入 你 
的 名 字 。 在 交互 式 环境 中 ， 程 序 输出 应 该 看 起 来 像 下 面 这 样 : 


Python 3.7.0b4 (v3.7.0b4:eb96c37699, May 2 2018，19:02:22) [MSC v.1913 64 bit 
(AMD64)] on win32 

Type "copyright", "credits" or "license()" for more information. 

>>> ================================ RESTART ================================ 
>>> 

Hello, world! 

What is your name? 

Al 

It is good to meet you, Al 

The length of your name is: 

2 

What is your age? 

4 

You will be 5 in a year. 

>>> 


如 果 没 有 更 多 代码 行 要 执行 ，Python 程序 就 会 “中 止 "”。 也 就 是 说 ， 它 会 停止 运行 。( 也 可 
以 说 Python 程序 “退出 ”了 。) 

可 以 通过 单 击 窗口 项 部 的 “关闭 ”按钮 关闭 文件 编辑 器 。 要 重新 加 载 一 个 保存 了 的 程序 ， 就 
在 菜单 中 选择 File 》 Open。 现 在 请 这 样 做 ， 在 出 现 的 窗口 中 选择 hello.py， 并 单 击 Open 按钮 。 前 
向 保存 的 程序 hello.py 应 该 在 文件 编辑 器 窗口 中 打开 。 

你 可 以 用 Python Tutor 网 站 的 可 视 化 工具 来 查看 程序 的 执行 情况 。 你 可 以 在 Python Tutor 
的 可 视 化 页 面 上 看 到 这 个 程序 的 执行 。 单 击 前 进 按钮 以 浏览 程序 执行 的 每 个 步骤 。 你 将 能 够 看 
到 变量 值 和 输出 如 何 变化 。 


1.6 程序 剂 析 
新 程序 在 文件 编辑 器 中 打开 后 ， 让 我 们 快速 看 一 看 它 用 到 的 Python 指令 ,逐一 查看 每 行 代 码 。 
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1.6.1 注释 
下 面 这 行 称 为 “注释 ”。 


© # This program says hello and asks for my name. 

Python 会 忽略 注释 ， 你 可 以 用 它们 来 解释 说 明 程序 ， 或 提醒 自己 代码 试图 完成 的 事 。 这 一 
行 中 ，# 标 志 之 后 的 所 有 文本 都 是 注释 。 

有 时 候 ， 程序 员 在 测试 代码 时 ， 会 在 一 行 代码 前 面 加 上 #， 临 时 删除 这 行 代码 。 这 称 为 “ 注 
释 掉 ”代码 。 在 你 想 搞 清楚 为 什么 程序 不 工作 时 ， 这 样 做 可 能 有 用 。 如 果 你 准备 还 原 这 一 行 代 
码 ， 可 以 去 掉 #。 : 

Python 也 会 忽略 注释 之 后 的 空 行 。 在 程序 中 ， 想 加 入 空 行 时 就 可 以 加 入 。 这 会 让 你 的 代码 
更 容易 阅读 ， 就 像 书 中 的 段落 一 样 。 


1.6.2 ”print() 函 数 
print() 函 数 将 括号 内 的 字符 串 输 出 在 屏幕 上 : 


@ print('Hello, world!') 
print('What is your name?') # ask for their name 


代码 行 print('Hell0o，world!') 表 示 “ 输 出 字符 串 'Hello world!' 的 文本 ”。Python 
执行 到 这 行 时 ， 表 示 Python 在 “调用 ”print() 函 数 ， 并 将 该 字符 串 的 值 “ 传 递 ” 给 函数 。 传 
递 给 函数 的 值 称 为 “参数 ”。 请 注意 ， 引 号 没有 输出 在 屏幕 上 ， 它 们 只 是 表示 字符 串 的 起 止 ， 不 
是 字符 串 的 一 部 分 。 


注意 : 也 可 以 用 这 个 函数 在 屏幕 上 输出 空 行 ， 只 要 调用 print() 就 可 以 了 ， 括 号 内 没有 任何 东西 。 


在 写 函 数 名 时 ， 末 尾 带 上 括号 表明 它 是 一 个 函数 的 名 字 。 这 就 是 为 什么 在 本 书 中 你 会 看 到 
print()， 而 不 是 print。 第 3 章 将 更 详细 地 探讨 函数 。 


1.6.3 input() 函 数 
input ( ) 函 数 等 待 用 户 在 键盘 上 输入 一 些 文本 ， 并 按 回 车 键 : 


© myName = input() 


这 个 函数 的 字符 串 ， 即 用 户 输入 的 文本 。 上 面 的 代码 行将 这 个 字符 串 赋 给 变量 myName 。 

可 以 认为 input () 函数 调用 是 一 个 表达 式 ， 和 它 处 理 用 户 输入 的 任何 字符 串 。 如 果 用 户 输 
入 'A1'， 和 那么 该 表达 式 的 结果 为 myName = 'Al'。 

如 果 调 用 input( ) 并 看 到 错误 信息 ， 例 如 NameError: name 'Al' is not defined， 
那么 问题 是 你 使 用 的 是 Python 2， 而 不 是 Python 3。 


1.6.4 输出 用 户 的 名 字 
接 下 来 的 print () 调 有 用， 实际 上 在 括号 中 包含 了 表达 式 'It is good to meet you，， 
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+ myName: 
@ print('It is good to meet you, ' + myName) 


要 记 住 ， 表 达 式 总 是 可 以 求 值 为 一 个 值 。 如 果 'A1 ' 是 上 一 行 代码 保存 在 myName 中 的 值 ， 
那么 这 个 表达 式 就 求 值 为 'It is good to meet you，Al'。 这 个 字符 串 传 给 print()， 它 
将 输出 到 屏幕 上 。 


1.6.5 len() 函 数 


你 可 以 同 len() 函数 传递 一 个 字符 串 〈 或 包含 字符 串 的 变量 )， 然 后 该 函数 求 值 为 一 个 整 
型 值 ， 即 字符 串 中 字符 的 个 数 : 


© print('The length of your name is: ') 
print(Jen(myName) ) 


在 交互 式 环 境 中 输入 以 下 内 容 试 一 试 : 

>>> len('hello’') 

>>> len( My very energetic monster just scarfed nachos.') 
46 


>>> len(”) 
0 


束 像 这 些 例子 ，len (myName ) 求 值 为 一 个 整数 。 然 后 它 被 传递 给 print( )， 在 屏幕 上 显 
未 。 请 注意 ，print () 允许 传 入 一 个 整 型 值 或 字符 串 。 但 如 果 在 交互 式 环境 中 输入 以 下 内 容 ， 
束 会 报错 : 

>>> print('I am ' + 29 + ' years old.') 

Traceback (most recent call last): 

File "<pyshell#6>", line 1, in <module> 


print('I am ' + 29 + ' years 01d.') 
TypeError: Can't convert 'int'′ object to str implicitly 


导致 错误 的 不 是 print () 函 数 ， 而 是 你 试图 传递 给 print () 的 表达 式 。 如 果 在 交互 式 环 
境 中 单独 输入 这 个 表达 式 ， 也 会 得 到 同样 的 错误 : 


9 old," 
Traceback (most recent call last): 
File "<pyshell#7>", line 1, in <module> 
+t" years 010d," 
TypeError: Can't convert 'int' object to str implicitly 


报错 是 因为 只 能 用 + 操作 符 加 两 个 整数 或 连接 两 个 字符 串 ， 不 能 让 一 个 整数 和 一 个 字符 串 
相 加 ， 因 为 这 不 符合 Python 的 语法 。 可 以 使 用 字符 串 型 的 整数 修复 这 个 错误 ， 这 在 下 一 小 节 中 
解释 。 


1.6.6 ”str()、int() 和 float() 函 数 


如 果 想 要 连接 一 个 整数 (如 29) 和 一 个 字符 串 ， 再 传递 给 print ( ) ， 就 需要 获得 值 '29'， 它 
古 29 的 字符 串 形式 。str() 函数 可 以 传 入 一 个 整 型 值 ， 并 求 值 为 它 的 字符 串 形 式 ， 像 下 面 这 样 : 
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>>> str(29) 
'29! 


>>> print('I am ' + str(29) + ' years old.') 
I am 29 years old. 


因为 str (29) 求 值 为 29'， 所 以 表达 式 'I am ' + str(29) + ' years old.' 求 值 为 
'Iam'+'29' + ' years 0ld.'， 它 又 求 值 为 'I am 29 years 01d.'。 这 就 是 传递 
给 print() 函 数 的 值 。 

str()、int() 和 Tfloat() 函 数 将 分 别 求 值 为 传 入 值 的 字符 串 、 整 数 和 浮 点 数 形式 。 请 党 
试用 这 些 函数 在 交互 式 环境 中 转换 一 些 值 ， 看 看 会 发 生 什么 : 


>>> str(0) 
"0 


>>> str(-3.14) 
'-3.14" 

>>> int('42°') 
42 

>>> int('-99') 
-99 

>>> int(1.25) 
1 


>>> int(1.99) 

1 

>>> float('3.14') 
3.14 

>>> float(10) 
10.0 


前 面 的 例子 调用 了 str()、int() 和 float() 函 数 ， 向 它们 传 入 其 他 数据 类 型 的 值 ， 得 到 
了 字符 串 、 整 型 或 浮 点 型 的 值 。 

如 果 想 要 将 一 个 整数 或 浮 点 数 与 一 个 字符 串 连 接 ， 那 么 用 str( ) 函数 就 很 方便 。 如 果 你 有 
一 些 字符 串 值 ， 希 望 将 它们 用 于 数学 运算 ， 那 么 int( ) 函数 也 很 有 用 。 例 如 ，input( ) 函 数 总 
是 返回 一 个 字符 串 ， 即 便 用 户 输入 的 是 一 个 数字 。 在 交互 式 环境 中 输入 spam = input()， 在 
它 等 待 文本 时 输入 101: 


>>> Spam = input() 


保存 在 spam 中 的 值 不 是 整数 101, 而 是 字符 串 ' 101 ' 。 如 果 想 要 用 spam 中 的 值 进 行 数学 运算 ， 
那 就 用 int ( ) 函数 取得 spam 的 整数 形式 ， 然 后 将 这 个 新 值 存 在 spam 中 : 
>>> Spam = int(Spanm) 


>>> Spanm 
101 


现在 你 应 该 能 将 spam 变量 作为 整数 使 用 ， 而 不 是 作为 字符 串 使 用 : 


>>> spam * 10 / 5 
202.0 


请 注意 ， 如 果 你 将 一 个 不 能 求 值 为 整数 的 值 传递 给 int ( ) ，Python 将 显示 错误 信息 : 
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>>> int('99.99') 
Traceback (most recent call last): 
File "<pyshell#18>", line 1, in <module> 
int('99.99') 
ValueError: invalid literal for int() with base 10: '99.99' 
>>> int('twelve') 
Traceback (most recent call last): 
File "<pyshell#19>", line 1, in <module> 
int('twelve') 
ValueError: invalid literal for int() with base 10: 'twelve' 


如 果 需 要 对 浮 点 数 进行 取 整 运算 ， 也 可 以 用 int () 函 数 : 


>>> int(7.7) 

? 

>>> int(7.7) + 1 
8 


在 你 的 程序 中 ， 最 后 3 行使 用 了 函数 int() 和 str()， 以 取得 适当 数据 类 型 的 值 : 


@ print('What is your age? ') # ask for their age 
myAge = input!) 
print('You will be ' + str(int(myAge) + 1) + ' in a year.) 


文本 和 数字 相等 判断 


“ 妥 然 效 字 的 字符 浊 值 害 认 与 整 型 值 和 浮上 型 值 完全 不 同 ， 但 可 型 全 可 5 点 人 


ee : er 42 == 142， 


;False 
"D> 42 == 42.0 
: True 
>>> 42。 0 == 0042.000 
-True 


Python 进行 这 种 区 分 ， 主 要 是 因为 字符 囊 是 文本 ， 而 整 型 值 和 浮 点 型 值 都 是 数字 . 


myAge 变量 包含 了 input() 函 数 返 回 的 值 。 因 为 input () 国 数 总 是 返回 一 个 字符 串 〈 即 
使 用 户 输入 的 是 数字 ), 所 以 你 可 以 使 用 int (myAge) 返 回 字 符 串 的 整 型 值 。 这 个 整 型 值 随后 在 
表达 式 int (myAge) + 1 中 与 1 相 加 。 

将 相 加 的 结果 传递 给 str( ) 函 数 : str(int(myAge) + 1)。 人 然后， 返回 的 字符 串 与 字符 
串 'You will be ' 和 ' in a year.' 连 接 ， 求 值 为 一 个 更 长 的 字符 串 。 这 个 更 长 的 字符 串 最 
终 传递 给 print() 函 数 ， 在 屏幕 上 显示 。 

假定 用 户 输入 字符 串 '4'， 保 存在 myAge 中 。 字 符 串 '4 ' 被 转换 为 一 个 整 型 值 ， 所 以 你 可 
以 对 它 加 1， 结 果 是 5。str( ) 函数 将 这 个 结果 转化 为 字符 串 ， 这 样 你 就 可 以 将 它 与 第 二 个 字符 
串 'in a year.' 连 接 ， 创建 最 终 的 消息 。 这 些 求 值 步骤 如 下 所 示 。 


print('You will be ' + str(int(myAge) + 1) + ' in a year。') 
print('You will be "+ str(int( '4' ) + 1) + ' in a year.') 


print('You will be ' + str{ 4+1 ) +"' in a year.') 


print('You will be ”+ 本 + ”in a year.') 


print( "You will be 5' + ”jin a year.') 


re will be ' + str( 5 ) + " in a year.') 


print('You will be 5 in a year.') 
1.7 小 结 


你 可 以 用 一 个 计算 器 来 计算 表达 式 ， 或 在 文本 处 理 器 中 输入 字符 串 连接 ， 甚 至 可 以 通过 复 
制 粘贴 文本 ， 很 容易 地 实现 字符 串 复 制 。 但 是 表达 式 以 及 组 成 它们 的 元 素 〈 操 作 符 、 变 量 和 函 
数 调用 ) 才 是 构成 程序 的 基本 构建 块 。 一 旦 你 知道 如 何 处 理 这 些 元 素 ， 就 能 够 用 Python 操作 大 
量 的 数据 。 

最 好 记 住 本 章 介 绍 的 不 同类 型 的 操作 符 (+、-、*、/、//、% 和 ** 是 数学 操作 符 ，+ 和 * 是 字 
符 串 操作 符 )， 以 及 3 种 数据 类 型 〈 整 型 、 浮 点 型 和 字符 串 )。 

本 章 还 介绍 了 几 个 不 同 的 函数 。print() 和 input() 函 数 处 理 简 单 的 文本 输出 〈 到 屏幕 ) 和 输 
入 (通过 键盘 )。1en ( ) 函数 接收 一 个 字符 串 ， 并 求 值 为 该 字符 串 中 字符 的 数目 。str() 、int() 和 
float ( ) 函数 将 传 入 它们 的 值 求 值 为 字符 串 、 整 数 或 浮 点 数 形式 。 

在 下 一 章 中 ， 你 将 学 习 如 何 告诉 Python 根据 它 拥 有 的 值 ， 明 智 地 决定 什么 代码 要 运行 、 什 
么 代码 要 跳 过 、 什 么 代码 要 重复 。 这 被 称 为 “控制 流 ” 它 让 你 编写 程序 来 做 出 明智 的 决定 。 


1.8 习题 


1. 下 面 哪些 是 操作 从 ， 哪 些 是 值 ? 


3， 说 出 3 种 数据 类 型 。 
4. 表达 式 由 什么 构成 ? 所 有 表达 式 都 做 什么 事 ? 
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5. 本 章 介 绍 了 赋值 语句 ， 如 spam = 10。 表 达 式 和 语句 有 什么 区 别 ? 
6. 下 列 语句 运行 后 ， 变 量 bacon 的 值 是 什么 ? 


bacon = 20 
bacon + 1 


7. 下 面 两 个 表达 式 求 值 的 结果 是 什么 ? 


'spam' + 'Spamspanm' 
'Spam' * 3 


8. 为 什么 eggs 是 有 效 的 变量 名 ， 而 100 是 无 效 的 变量 名 ? 
9. 哪 3 个 函数 能 分 别 取 得 一 个 值 的 整 型 、 浮 点 型 和 字符 串 形式 ? 
10. 为 什么 下 面 这 个 表达 式 会 导致 错误 ? 如 何 修复 ? 


'I have eaten ' + 99 + ' burritos.’ 


附加 题 : 在 线 查 找 len( ) 函数 的 Python 文档 。 查 看 Python 的 其 他 函数 的 列表 , 查看 round ( ) 
函数 的 功能 ， 并 在 交互 式 环 境 中 使 用 它 。 


控制 流 


你 已 经 知道 了 单条 指令 的 基本 知识 , 程序 就 是 一 系列 指令 。 但 编程 真正 
的 力量 不 仅 在 于 运行 (或 “执行 ") 一 条 接 一 条 的 指令 ， 就 像 周末 的 任务 清 
单 那样 。 根 据 表达 式 求 值 的 结果 ， 程 序 可 以 决定 跳 过 指令 、 重 复 指令 ， 或 从 
几 条 指令 中 选择 一 条 运行 。 实 际 上 , 你 几乎 不 会 希望 程序 从 第 一 行 代码 开始 ， 
简单 地 执行 每 行 代码 ， 直 到 最 后 一 行 。 “控制 流 语 自 ” 可 以 决定 在 什么 条 件 
下 执行 哪些 Python 语句 。 

这 些 控制 流 语句 直接 对 应 于 流程 图 中 的 符号 ， 所 以 在 本 章 中 ， 我 将 
提供 示例 代码 的 流程 图 。 图 2-1 所 示 为 一 张 流程 图 ， 内 容 是 如 果 下 雨 怎 
么 办 。 按 照 箭 头 构 成 的 路 径 ， 你 将 了 解 从 开始 到 结束 的 所 有 步骤 。 


否 是 
是 


否 


图 2-1 一 张 流程 图 ， 告 诉 你 如 果 下 十 要 做 什么 
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在 流程 图 中 ， 通 常 有 不 止 一 种 方法 从 开始 走 到 结束 。 计 算 机 程序 中 的 代码 行 也 是 这 样 。 流 
程 图 用 鞭 形 表示 这 些 分 支 节点 ， 开 始 和 结束 步骤 用 带 贺 角 的 矩形 表示 ， 其 他 步骤 用 撼 形 表示 。 

但 在 学 习 控 制 流 语句 之 前 ,要 学 习 如 何 表示 这 些 “ 是 ”和 “和 否 ”选项 。 同 时 你 也 需要 理解 ， 
如何 将 这 些 分 支 节点 写成 Python 代码 。 做 到 这 一 点 之 前 ， 让 我 们 先 看 看 布尔 值 、 比 较 操作 符 和 
布尔 操作 符 。 


2.1 布尔 值 


虽然 整 型 、 浮 点 型 和 字符 串 数据 类 型 有 无 数 种 可 能 的 值 ， 但 “布尔 ” ” 砚 频 1 
(Boolean) 数据 类 型 只 有 两 种 值 ，True 和 False。(Boolean 的 首 字 母 大 写 , 因 
为 这 个 数据 类 型 是 根据 数学 家 乔治 。 布尔 命名 的 。) 在 作为 Python 代码 输入 时 ， 布 尔 值 True 
和 False 不 像 字 符 串 ， 两 边 没 有 引号 ， 它 们 总 是 以 大 写字 母 T 和 下 开头， 后面 的 字母 小 写 。 在 
交互 式 环境 中 输入 下 面 内 容 (其 中 有 些 指令 是 故意 弄 错 的 ， 它 们 将 导致 出 现 错误 信息 ): 


@ >>> spam = True 


@ >>> true 
Traceback (most recent call last): 
File "<pyshell#2>", line 1, in <module> 
true 
NameError: name 'true' is not defined 
© >>> True = 2 + 2 
SyntaxError: assignment to keyword 


像 其 他 值 一 样 , 布尔 值 也 用 在 表达 式 中 , 并 且 可 以 保存 在 变量 中 O@, 如 果 大 小 写 不 正确 @， 
或 者 试图 使 用 True 和 False 作为 变量 名 目 ，Python 就 会 给 出 错误 信息 。 


2.2 ”比较 操作 符 


“比较 操作 符 ”( 也 称 为 “关系 操作 符 ”) 比较 两 个 值 ， 求 值 为 一 个 布尔 值 。 表 2-1 列 出 
了 比较 操作 符 


表 2-1 比较 操作 符 


操作 符 含义 
一 二 等 于 
!= 不 等 于 
< 小 于 
> 大 于 
I 小 于 针 秆 
Ee 大 于 等 于 


这 些 操作 符 根据 提供 给 它们 的 值 ， 求 值 为 True 或 False。 现 在 让 我 们 尝试 使 用 一 些 操作 
符 ， 从 == 和 != 开 始 : 
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>>> 42 == 42 


True 

>>> 42 == 99 

False 
>>> 2 1= 3 如 
True 

>>> 2 I= 2 


False 


如 果 两 边 的 值 一 样 ，== (等 于 ) 求 值 为 True。 如 果 两 边 的 值 不 同 ，!= (不 等 于 ) 求 值 为 
True。== 和 != 操 作 符 实际 上 可 以 用 于 所 有 数据 类 型 的 值 : 
>>> 'hello' == ‘hello' 
True 
>>> 'hello’ == 'Hello' 
False 
>>> 'dog' != 'cat' 
True 
>>> True == True 
True 
>>> True != False 
True 
>>> 42 == 42.0 
True 
@ >>> 42 == '42' 
False 


请 注意 ， 整 型 或 浮 点 型 的 值 永远 不 会 与 字符 串 相 等 。 表 达 式 42 == '42'@ 求 值 为 False 
是 因为 Python 认为 整数 42 与 字符 串 '42' 不 同 。 
男 一 方面 ，<、>、<= 和 >= 操 作 符 仅 用 于 整 型 和 浮 点 型 值 : 


>>> 42 < 100 


False 
>>> eggCount = 42 
@ >>> eggCount <= 42 
True 
>>> myAge = 29 
@ >>> myAge >= 10 
True 


== 和 = 操作 符 的 区 别 


你 可 能 已 经 注意 到 ，== (等 于 ) 操作 符 有 两 个 等 号 ,而 = (赋值 ) 操作 符 只 有 一 个 等 
号 。 这 两 个 操作 符 很 容易 混 消 。 只 要 记 住 以 下 两 点 即 可 。 


口 ”== (等 于 ) 操作 符 用 于 确定 两 个 值 是 否 彼此 相同 。 

口 = (赋值 ) 操作 符 将 右边 的 值 放 到 左边 的 变量 中 。 

为 了 记 住 谁 是 谁 ， 请 注意 一 (等 于 ) 操作 符 包含 两 个 字符 ， 就 像 != (不 等 于 ) 操作 符 
包含 两 个 字符 一 样 。 
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你 会 经 常用 比较 操作 符 比较 一 个 变量 和 另外 某 个 值 ， 就 像 在 例子 eggCount <= 42O@ 和 
myAge >= 10@ 中 一 样 , 这 种 操作 是 有 实际 意义 的 (毕竟 , 除了 在 代码 中 输入 'dog ' != 'cat 
以 外 ， 你 本 来 也 可 以 直接 输入 True)。 稍 后 ， 在 学 习 控 制 流 语句 时 ， 你 会 看 到 更 多 的 例子 。 


2.3 布尔 操作 符 


3 个 布尔 操作 符 〈and、or 和 not) 用 于 比较 布尔 值 。 像 比较 操作 符 一 样 ， 它 们 将 这 些 
表达 式 求 值 为 一 个 布尔 值 。 让 我 们 仔细 看 看 这 些 操作 符 ， 从 and 操作 符 开始 。 


2.3.1 二 元 布尔 操作 符 


and 和 or 操作 符 总 是 接收 两 个 布尔 值 〈 或 表达 式 )， 所 以 它们 被 认为 是 “二 元 ”操作 符 。 
如 果 两 个 布尔 值 都 为 True，and 操作 符 就 将 表达 式 求 值 为 True; 否则 求 值 为 False。 在 交互 
式 环境 中 输入 某 个 使 用 and 的 表达 式 ， 看 看 效果 : 


>>> True and True 
True 
>>> True and False 
False 


“ 真 值 表 ” 显 示 了 布尔 操作 符 的 所 有 可 能 结果 。 表 2-2 所 示 为 and 操作 符 的 真 值 表 。 
表 2-2 and 操作 符 的 真 值 表 


表达 式 求 值 为 
True and True True 
True and False False 
False and True False 
False and False False 


男 一 方面 ， 只 要 有 一 个 布尔 值 为 真 ，or 操作 符 就 将 表达 式 求 值 为 True。 如 果 都 是 False， 
则 求 值 为 False: 

>>> False or True 

True 


>>> False or False 
False 


可 以 在 or 操作 符 的 真 值 表 中 看 到 每 一 种 可 能 的 结 琳 ， 如 表 2-3 所 示 。 
表 2-3 or 操作 符 的 真 值 表 


表达 式 求 值 为 
True or True True 
True or False True 
False or True True 


False or False False 
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2.3.2 not 操作 符 


与 and 和 or 不同，not 操作 符 只 作用 于 一 个 布尔 值 (或 表达 式 )， 这 使 它 成 为 “一 元 ” 操 上 图 
作 符 。not 操作 符 求 值 为 相反 的 布尔 值 : 


>>> not True 
False 

© >>> not not not not True 
True 


就 像 在 说 话 和 写作 中 使 用 双重 否定 一 样 ， 你 可 以 嵌 套 not 操作 符 @， 虽 然 在 真正 的 程序 中 
并 不 经 常 这 样 做 。 表 2-4 为 not 操作 符 的 真 值 表 。 


表 2-4 not 操作 符 的 真 值 表 


表达 式 求 值 为 
not True False 
not False True 


2.4 混合 布尔 和 比较 操作 符 


既然 比较 操作 符 求 值 为 布尔 值 ， 那 么 就 可 以 和 布尔 操作 符 一 起 在 表达 式 中 使 用 。 

回忆 一 下 ，and、or 和 not 操作 符 称 为 布尔 操作 符 是 因为 它们 总 是 操作 布尔 值 。 虽 然 像 4 < 
5 这 样 的 表达 式 不 是 布尔 值 ， 但 可 以 求 值 为 布尔 值 。 在 交互 式 环境 中 ， 尝 试 输入 一 些 使 用 比较 
操作 符 的 布尔 表达 式 : 

>>> (4 < 5) and (5 < 6) 

True 

>>> (4 < 5) and (9 < 6) 

False 

>>> (1 == 2) or (2 == 2) 

True 


计算 机 将 先 求 值 左 边 的 表达 式 ， 然 后 求 值 右边 的 表达 式 。 得 到 两 个 布尔 值 后 ， 它 又 将 整个 
表达 式 再 求 值 为 一 个 布尔 值 。 计 算 机 求 值 (4 < 5) 和 (5 < 6) 的 过 程 如 下 所 示 。 


(4 < 5) and (5 < 6) 
True and (5 < 6) 
True and True 


True 


也 可 以 在 一 个 表达 式 中 使 用 多 个 布尔 操作 符 ， 与 比较 操作 符 一 起 使 用 : 


>>> 2+2 == 4 and not 2+2== 5 and2*2 ==2+2 
True 


和 算术 操作 符 一 样 ， 布 尔 操 作 符 也 有 操作 顺序 。 在 所 有 算术 和 比较 操作 符 求 值 后 ，Python 
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先 求 值 not 操作 符 ， 然 后 求 值 and 操作 符 ， 最 后 求 值 or 操作 符 。 


2.5 ”控制 流 的 元 素 


控制 流 语句 的 开始 部 分 通常 是 “条 件 ”， 接 下 来 是 一 个 代码 块 ， 称 为 “ 子 句 ”。 在 开始 学 习 
具体 的 Python 控制 流 语句 之 前 ， 我 先 介绍 条 件 和 代码 块 。 


2.5.1 条 件 


你 前 面 看 到 的 布尔 表达 式 可 以 看 成 条 件 ， 它 和 表达 式 是 一 回 事 。“ 条 件 ” 只 是 在 控制 流 语 名 
的 上 下 文中 更 具体 的 名 称 。 条 件 总 是 求 值 为 一 个 布尔 值 : True 或 False。 控 制 流 语句 根据 条 
件 是 True 还 是 False， 来 决定 做 什么 。 几 乎 所 有 的 控制 流 语句 都 使 用 条 件 。 


2.5.2 ”代码 块 


一 些 代 码 行 可 以 作为 一 组 ， 放 在 “代码 块 ” 中。 可 以 根据 代码 行 的 缩 进 判断 代码 块 的 开始 
和 结束 。 代 码 块 有 以 下 3 条 规则 。 

口 缩 进 增加 时 ， 代 码 块 开 始 。 

口 代码 块 可 以 包含 其 他 代码 块 。 

口 缩 进 减少 为 零 ， 或 与 外 面包 围 代码 块 对 齐 ， 代 码 块 就 结束 了 。 

看 一 些 有 缩 进 的 代码 ， 更 容易 理解 代码 块 。 让 我 们 在 一 小 段 游戏 程序 中 寻找 代码 块 ， 如 下 
所 示 : 


name = 'NMary'’ 
password = 'swordfish' 
if name == 'Mary': 
@ print('Hello, Mary') 
if password == 'swordfish': 
©@ print('Access granted.') 
else: 
© print('Wrong password.') 


可 以 在 https://autbor.com/blocks/ 上 查看 该 程序 的 执行 情况 。 第 一 个 代码 块 @ 开 始 于 代码 行 
print('Hello，Mary')， 并 且 包 含 后 面 所 有 的 行 。 在 这 个 代码 块 中 有 男 一 个 代码 块 @， 它 只 
有 一 行 代码 : print('Access Granted.')。 第 三 个 代码 块 @ 也 只 有 一 行 : print('Wrong 
password.' )。 


2.6 程序 执行 


在 第 1 草 的 hello.py 程序 中 ，Python 开始 执行 程序 顶部 的 指令 ， 然 后 一 条 接 一 条 往 下 执行 。 
“程序 执行 ”( 或 简称 “执行 ”) 这 一 术语 是 指 执行 当前 的 指令 。 如 果 将 源 代 码 打 印 在 纸 上 , 在 它 
执行 时 用 手指 指 着 每 一 行 代码 ， 你 可 以 认为 手指 就 是 在 做 程序 执行 。 

但 是 ， 并 非 所 有 的 程序 都 是 从 上 至 下 简单 地 执行 。 如 果 用 手指 追踪 一 个 带 有 控制 流 语 句 的 
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程序 ， 可 能 会 发 现 手指 会 根据 条 件 跳 过 源 代码 ， 且 有 可 能 跳 过 整个 子 句 。 


2.7 控制 流 语 句 


现在 ， 让 我 们 来 看 最 重要 的 控制 流 部 分 ， 语 句 本 身 。 语 句 代 表 了 在 图 2-1 所 示 的 流程 图 中 
看 到 的 莹 形 ， 它 们 是 程序 将 做 出 的 实际 判断 。 


2.7.1 评语 铅 


最 常见 的 控制 流 语句 是 if 语句 。if 语句 的 子 句 〈 也 就 是 紧 跟 if 语句 的 语句 块 )， 将 在 语 
句 的 条 件 为 True 时 执行 。 如 果 条 件 为 False， 将 跳 过 子 句 。 

在 自然 语言 中 ，if 语句 念 起 来 可 能 是 :“ 如 果 条 件 为 真 ， 执 行 子 句 中 的 代码 。” 在 Python 
中 ，if 语句 包含 以 下 部 分 。 

口 if 关键 字 。 

口 条 件 〈 即 求 值 为 True 或 False 的 表达 式 )。 

口 冒号 。 

口 在 下 一 行 开始 ， 缩 进 的 代码 块 〈 称 为 if 子 句 )。 

例如 ， 假 定 有 以 下 代码 ， 用 于 检查 某 人 的 名 字 是 否 为 Alice〔 假 设 此 前 曾 为 name 赋值 ): 


if name == 'Alice': 
print('Hi, Alice.') 


所 有 控制 流 语句 都 以 冒号 结尾 ， 后 面 跟着 一 个 新 的 代码 块 ( 子 句 )。 语 句 的 if 子 句 是 代码 
块 ， 包 含 print('Hi，Alice.')。 图 2-2 所 示 为 这 段 代 码 的 流程 图 。 


name == "Alice' 


print('Hi, Alice.') 


图 2-2 ”if 语句 的 流程 图 
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2.7.2 else 语句 


if 子 句 后 面 有 时 候 也 可 以 跟着 else 语句 。 只 有 if 语句 的 条 件 为 False 时 ，else 子 句 
才 会 执行 。 在 自然 语言 中 ，else 语句 念 起 来 可 能 是 :“ 如 果 条 件 为 真 ， 执 行 这 段 代 码 ; 否则 ， 
执行 那 段 代码 。 ”else 语句 不 包含 条 件 ， 在 代码 中 ，else 语句 包含 以 下 部 分 。 

口 else 关键 字 。 

口 冒号 。 

口 在 下 一 行 开 始 ， 缩 进 的 代码 块 〈 称 为 else 于 人 句 )。 

回 到 名 字 检 查 程序 的 例子 ， 我 们 来 看 看 使 用 else 语句 的 一 些 代 码 ， 在 名 字 不 是 Alice 时 ， 
发 出 不 一 样 的 问候 : 

if name == 'Alice': 
print('Hi, Alice.') 
ty stranger.') 


2-3 所 示 为 这 段 代 码 的 流程 图 。 


name == "Alice' 真 print("'Hi, Alice.') 


print('Hello, stranger.') 


图 2-3 ”else 语句 的 流程 图 
2.7.3 elif 语句 
虽然 只 有 if 或 else 子 句 会 被 执行 ， 但 有 时 候 希 望 “ 许 多 ”可 能 的 子 句 中 有 一 个 被 执行 。 
elif 语句 是 “和 否则 如 果 ” 总 是 跟 在 if 或 男 一 条 elif 语句 后 面 。 它 提供 了 另 一 个 条 件 ， 仅 在 


前 面 的 条 件 为 False 时 才 检 查 该 条 件 。 在 代码 中 ，elif 语句 总 是 包含 以 下 部 分 。 
口 elif 关键 字 。 
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口 条 件 〈 即 求 值 为 True 或 False 的 表达 式 )。 


口 冒号 。 
口 在 下 一 行 开始 ， 缩 进 的 代码 块 ( 称 为 elif 子 句 )。 
让 我 们 在 名 字 检 查 程 序 中 添加 elif， 看 看 这 个 语句 的 效果 : 


if name == 'Alice': 
print('Hi, Alice.') 
elif age < 12: 
print('You are not Alice, kiddo.') 


这 一 次 ,检查 此 人 的 年 龄 。 如 果 比 12 岁 小 ， 就 告诉 他 一 些 不 同 的 东西 。 图 2-4 所 示 为 这 段 
代码 的 流程 图 。 


真 print('Hi, Alice.') 


age < 12 真 print( "You are not Alice, kiddo.') 


假 


图 2-4 elif 语句 的 流程 图 


如 果 age < 12 为 True， 并 且 name == 'Alice' 为 False，elif 子 句 就 会 执行 。 但 是 ， 
如 果 两 个 条 件 都 为 False， 那 么 两 个 子 句 都 会 被 跳 过 。“ 不 能 ”保证 至 少 有 一 个 子 句 会 被 执行 。 
如 果 有 一 系列 的 elif 语句 ， 仅 有 一 条 或 零 条 子 句 会 被 执行 ,一 旦 一 个 语句 的 条 件 为 True， 会 
自动 跳 过 剩 下 的 elif 子 句 。 例 如 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 保 存 为 


vampire.py: 


name = 'Carol' 
age = 3000 
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if name == "Alice ' : 
print('Hi, Alice.') 
elif age < 12: 


print('You are not Alice, kiddo.') 
elif age > 2000: 


print('Unlike you, Alice is not an undead, immortal vampire.') 
elif age > 100: 


print('You are not Alice, grannie.') 


可 以 在 https:/autbor.com/vampire/ 上 查看 该 程序 的 执行 情况 。 这 里 , 我 添加 了 另外 两 条 elif 
语句 ， 让 名 字 检 查 程 序 根据 age 的 不 同 答案 而 发 出 问候 。 图 2-5 所 示 为 这 段 代码 的 流程 图 。 


name == "Alice' 真 print('Hi, Alice.') 


print( Unlike you, Alice is not 
We 真 an undead, immortal vampire.') 


< 真 print('You are not Alice, kiddo.') 
假 
假 


age > 100 真 print('You are not Alice, grannie.') 


结束 及 


图 2-5 vampire.py 程序 中 多 重 elif 语句 的 流程 图 
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elif 语句 的 次 序 很 重要 。 让 我 们 重新 排序 ， 引 入 一 个 bug。 回 忆 一 下 , 一 旦 找到 一 个 True 
条 件 ， 就 会 自动 跳 过 剩余 的 子 句 。 所 以 如 果 交 换 vampire.py 中 的 一 些 子 句 ， 就 会 遇 到 问题 。 像 
下 面 这 样 改变 代码 ， 将 它 保 存 为 vampire2.py: 


name = 'Carol' 
age = 3000 
If name == 'Alice': 


print('Hi, Alice.') 
elif age < 12: 
print('You are not Alice, kiddo.') 
© elif age > 100: 
print('You are not Alice, grannie.') 
elif age > 2000: 
print('Unlike you, Alice is not an undead, immortal vampire.') 


可 以 在 https://autbor.com/Vvampire2/ 上 查看 该 程序 的 执行 情况 。 假 设 在 这 段 代码 执行 之 前 ， 
age 变量 的 值 是 3000。 你 可 能 预计 代码 会 输出 字符 串 'Unlike you, Alice is not an undead ， 
immortal vampire.'。 但 是 ， 因 为 age > 100 条 件 为 真 (3000 大 于 100) @， 字 符 串 'You 
are not Alice，grannie.' 被 输出 ， 自 动 跳 过 剩 下 的 语句 。 别 忘 了 ， 最 多 只 有 一 个 子 句 会 
执行 ， 所 以 对 于 elif 语句 ， 次 序 是 很 重要 的 。 

图 2-6 所 示 为 前 面 代码 的 流程 图 。 请 注意 ， 芙 形 age > 100 和 age > 2000 交换 了 位 置 。 

你 可 以 选择 在 最 后 的 elif 语句 后 面 加 上 else 语句 。 在 这 种 情况 下 ， 保 证 有 且 只 有 一 
个 子 句 会 被 执行 。 如 果 每 个 if 和 elif 语句 中 的 条 件 都 为 False， 就 执行 else 子 句 。 例 
如 ， 让 我 们 使 用 if、elif 和 else 子 句 重新 编写 名 字 检 查 程序 : 


name = 'Carol' 
age = 3000 
if name == 'Alice': 


print( Mi, AUECG 
elif age < 12» 
print('You are not Alice, kiddo.') 
else: 
print('You are neither Alice nor a little kid.') 


可 以 在 https://autbor.com/littlekid/ 上 查看 该 程序 的 执行 情况 。 图 2-7 所 示 为 这 段 新 代 码 的 流 
程 图 ， 我 们 将 它 保存 为 littleKid.py。 

在 自然 语言 中 ， 这 类 控制 流 结构 为 :“ 如 果 第 一 个 条 件 为 真 ， 做 这 个 ; 如 果 第 二 个 条 件 
为 真 ， 做 那个 ; 否则 ， 做 另外 的 事 。” 如 果 你 同时 使 用 if、elif 和 else 语句 ， 要 记 住 这 
些 次 序 规则 ， 避 免 出 现 图 2-6 所 示 的 bug。 首 先 ， 总 是 只 有 一 个 if 语句， 所 有 需要 的 elif 
语句 都 应 该 跟 在 if 语句 之 后 ; 其 次 ， 如 果 和 希望 确保 至 少 一 条 子 句 被 执行 ， 那 么 在 最 后 加 上 
else 语句 。 


name == “Alice 


print("Hi，Alice。) 


print( "You are not Alice，8grannie。) 


print('You are not Alice, kiddo.') 


print( "Unlike you, Alice is not 


age > 2000 ， ' 
8 an undead, immortal vampire.) 


假 
Ce 


图 2-6 ”vampire2.py 程序 的 流程 图 。 打 又 的 路 径 在 逻辑 上 永远 不 会 发 生 ， 
因为 如 果 age 大 于 2000， 它 就 已 经 大 于 100 了 


name == "Alice' 真 print('Hi, Alice.') 


print('You are not Alice, kiddo.') 


age < 12 真 


print('You are neither Alice 
nor a little kid.') 


图 2-7 ”littleKid.py 程序 的 流程 图 


2.7.4 ”while 循环 语句 
利用 while 循环 语句 ， 可 以 让 一 个 代码 块 一 遍 又 一 遍地 执行 。 只 要 while 循环 语句 的 条 件 为 
True，while 子 句 中 的 代码 就 会 执行 。 在 代码 中 ，while 循环 语句 总 是 包含 以 下 几 部 分 。 
口 while 关键 字 。 
口 条 件 〈 求 值 为 True 或 False 的 表达 式 )。 
口 冒号 。 
口 从 下 一 行 开 始 ， 缩 进 的 代码 块 〈 称 为 while 子 句 )。 
可 以 看 到 ，while 循环 语句 看 起 来 和 if 语句 类 似 。 不 同 之 处 是 它们 的 行为 。if 子 句 结束 时 ， 
程序 继续 执行 if 语句 之 后 的 语句 。 但 在 while 子 句 结束 时 ， 程 序 跳 回 到 while 循环 语句 开始 处 
执行 。while 子 句 常 被 称 为 “while 循环 ” 或 就 是 “循环 ”。 
让 我 们 来 看 一 个 if 语句 和 一 个 while 循环 。 它 们 使 用 同样 的 条 件 ， 并 基于 该 条 件 做 出 同 
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样 的 动作 。 下 面 是 if 语句 的 代码 : 


spam = 0 

if Spam < 5: 
print('Hello, world.') 
spam = spam + 1 


下 面 是 while 循环 语句 的 代码 : 


spam = 0 

while spam < 5: 
print('Hello, world.') 
spam = spam + 1 


这 些 语句 类 似 ，if 和 while 都 检查 spam 的 值 ， 如 果 它 小 于 5， 就 输出 一 条 消息 。 但 如 果 
运行 这 两 段 代码 ， 它 们 各 自 的 表现 非常 不 同 。 对 于 if 语句 ， 输 出 就 是 "Hel10, world."。 但 
对 于 while 语句 ， 输 出 是 "Hello，wor1d. "重复 了 5 次 。 看 一 看 这 两 段 代码 的 流程 图 ， 如 图 
2-8 和 图 2-9 所 示 ， 找 一 找 原因 。 


print('Hello, world.') 
加 让 


图 2-8 ”if 语句 代码 的 流程 图 


带 有 if 语句 的 代码 检查 条 件 ， 如 果 条 件 为 True， 就 输出 一 次 "Hello，world."。 带 有 
while 循环 的 代码 则 不 同 ， 会 输出 5 次 。 输 出 5 次 后 停 下 来 是 因为 在 每 次 循环 迭代 末尾 ，spam 
中 的 整数 都 增加 1。 这 意味 着 循环 将 执行 5 次 ， 然 后 spam < 5 变 为 False。 

在 while 循环 中 ， 条 件 总 是 在 每 次 “迭代 ”开始 时 检查 〈 也 就 是 每 次 循环 执行 时 )。 如 果 
条 件 为 True， 子 句 就 会 执行 ， 然 后 再 次 检查 条 件 ; 当 条 件 第 一 次 为 False 时， 就 跳 过 while 
下 
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真 


print('Hello, world.') 


壕 站 


图 2-9 while 循环 语句 代码 的 流程 图 
2.7.5 恼人 的 循环 


这 里 有 一 个 小 例子 ， 它 不 停 地 要 求 你 输入 “your name”( 就 是 这 个 字符 串 ， 而 不 是 你 的 名 
字 )。 选 择 File 》 New Window， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 将 文件 保存 为 
yourName.py: 

@ name = "" 
@ while name != 'your name': 
print('Please type your name.') 
© name = input() 
@ print('Thank you!') 

可 以 在 https://autbor.com/yourname/ 上 查看 这 个 程序 的 执行 情况 。 首先, 程序 将 变量 name@ 
设置 为 一 个 空 字符 串 。 这 样 ， 条 件 name != 'your name' 就 会 求 值 为 True， 程 序 就 会 进入 
while 循环 的 子 句 @。 

这 个 子 句 内 的 代码 要 求 用 户 输入 他 们 的 名 字 ， 然 后 赋 给 name 变量 @@。 因 为 这 是 语句 块 的 
最 后 一 行 ， 所 以 执行 就 回 到 while 循环 的 开始 ， 重 新 对 条 件 求 值 。 如 果 name 中 的 值 “ 不 等 于 ” 
字符 串 'your name'， 那 么 条 件 就 为 True， 执 行将 再 次 进入 while 子 句 。 

但 如 果 用 户 输 入 your name，while 循环 的 条 件 就 变 成 'your name' != 'your name '， 
它 求 值 为 False。 条 件 现 在 是 False， 程 序 就 不 会 再 次 进入 while 子 句 ， 而 是 跳 过 它 ， 继 续 
执行 程序 后 面 的 部 分 @。 图 2-10 所 示 为 yourName.py 程序 的 流程 图 。 
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print( "Please type your name。) 


name != "your name' 


print('Thank you!') 


图 2-10 ”yourName.py 程序 的 流程 图 


现在 ， 让 我 们 来 看 看 yourName.py 程序 的 效果 。 按 FS 键 运行 它 ， 输 入 几 次 your name 之 
外 的 东西 ， 然 后 骨 提 供 程 序 想 要 的 输入 : 

Please type your name. 

Al 

Please type your name. 

Albert 

Please type your name. 

%#@#E* (~^R!1!! 

Please type your name. 

your name 

Thank you! 


如 果 永 不 输入 your name， 那 么 循环 的 条 件 就 永远 为 True， 程 序 将 永远 执行 下 去 。 这 里 ， 
input( ) 调用 让 用 户 输入 正确 的 字符 串 ， 以 便 让 程序 继续 。 在 其 他 程序 中 ， 条 件 可 能 永远 没有 
实际 变化 ， 这 可 能 会 出 问题 。 让 我 们 来 看 看 如 何 跳出 循环 。 


2.7.6 break 语句 


有 一 个 捷径 可 以 让 执行 提前 跳出 while 子 句 。 如 果 执 行 遇 到 break 语句 ， 就 会 马上 退出 
while 子 句 。 在 代码 中 ，break 语句 仅 包 含 break 关键 字 。 

非常 简单 ， 对 吗 ? 这 里 有 一 个 程序 ， 和 前 面 的 程序 做 一 样 的 事情 ， 但 使 用 了 break 语句 来 
跳出 循环 。 输 入 以 下 代码 ， 将 文件 保存 为 yourName2.py: 
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@ while True: 
print('Please type your name.') 
@ name = input() 
© if name == 'your name': 
@ break 
© print('Thank you!') 


可 以 在 https://autbor.com/yourname2/ 上 查看 该 程序 的 执行 情况 。 第 一 行 @ 创 建 了 一 个 “无 限 
循环 ”， 它 是 一 个 条 件 总 是 为 True 的 while 循环 。( 表 达 式 True 总 是 求 值 为 True。) 程序 执 
行将 总 是 进入 循环 ， 只 有 遇 到 break 语句 时 才 会 退出 (永远 不 ”退出 的 无 限 循 环 是 一 个 常见 
的 编程 bug)。 

像 以 前 一 样 ， 程 序 要 求 用 户 输入 your name@。 但 是 现在 ， 虽 然 执行 仍然 在 while 循环 内 ， 
但 有 一 个 if 语句 会 被 执行 @， 检 查 name 是 否 等 于 your name。 如 果 条 件 为 True，break 语句 
就 会 执行 @， 然 后 会 跳出 循环 ， 转 到 print( 'Thank you!') @; 否则 ， 就 会 跳 过 包含 break 语 
句 的 if 语句 子 句 ， 让 执行 到 达 while 循环 的 末尾 。 此 时 ， 程 序 执行 跳 回 到 while 循环 语句 的 开 
始 Q@， 重 新 检查 条 件 。 因 为 条 件 是 True， 所 以 执行 进入 循环 ， 再 次 要 求 用 户 输入 your name。 这 
个 程序 的 流程 如 图 2-11 所 示 。 


真 
< print('Please type your name。 ) 


print( "Thank you!') 
结束 


图 2-11 带 有 无 限 循环 的 程序 的 流程 图 。 注 意 ， 打 又 路 径 在 逻辑 上 永远 不 会 发 生 ， 因 为 循环 条 件 总 是 为 True 
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运行 yourName2.py， 输 入 你 为 yourName.py 程序 输入 的 同样 文本 。 重 写 的 程序 应 该 和 原来 
的 程序 反应 相同 。 


2.7.7 ”continue 语句 


像 break 语句 一 样 ，continue 语句 用 于 循环 内 部 。 如 果 程 序 执行 遇 到 continue 语 
句 ， 就 会 马上 跳 回 到 循环 开始 处 ， 重 新 对 循环 条 件 求 值 (这 也 是 执行 到 达 循 环 末尾 时 发 生 的 
事情 )。 

让 我 们 用 continue 写 一 个 程序 ， 要 求 输入 名 字 和 口令 。 在 一 个 新 的 文件 编辑 器 窗口 中 输 
入 以 下 代码 ， 将 程序 保存 为 swordfish.py: 


while True: 
print('Who are you?') 


name = input{) 
©@ if name != 'Joe': 
@ continue 
print('Hello, Joe. What is the password? (It is a fish.)') 
©@ password = input() 
if password == 'Swordfish ' : 
@ break 
© print('Access granted.') 


如 果 用 户 输入 的 名 字 不 是 Joe@，continue 语 语句 @ 将 导致 程序 执行 跳 回 到 循环 开始 处 。 
再 次 对 条 件 求 值 时 ， 执 行 总 是 进入 循环 ， 因 为 条 件 就 是 True。 如 果 执 行 通过 了 if 语句 ， 用户 
束 被 要 求 输入 口令 卓 。 如 果 输 入 的 口令 是 swordfish, break 语句 执行 @, 执行 跳出 while 循环 ， 
输出 Access granted@; 和 否则， 执行 继续 到 while 循环 的 未 尾 ， 又 跳 回 到 循环 的 开始 。 这 
个 程序 的 流程 如 图 2-12 所 示 。 


2.7 ”控制 流 语句 


print('Who are you?') 


真 


continue 


name = input() 


name != "Joe' 


真 


print('Hello, Joe. What is the password? (It is a fish.) ) 


password = input() 


password == “Swordfish" 


print('Access granted.') 


结束 


图 2-12” swordfish.py 的 流程 图 。 打 又 的 路 径 在 逻辑 上 永远 不 会 执行 ， 因 为 循环 条 件 总 是 True 


3 


人 
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“类 真 ”和 “类 假 ” 的 值 2 


0.0 和 ( 空 字符 囊 ) 认为 是 1 False,. 共 他 值 被 认为 是 True。 a 请 下 面 的 和 :| 
Et i name: -一 一 ee 、 | Ce Se 
print{'Enter your name: 和 
name = input() 中 
print( 'How,many guUestS- will YOU have?， ) 
numOfGuests = int(input()) . 


四 if numOfGuests: 
© print(， Be sure to have enough roonm for all your guests.') 


Psp Done' ) 


可 以 在 https://autbor. A 查看 这 个 程序 的 执行 情 况 。 如 果 用 户 输入 一 
人 name, 那么 While 狂 环 坟 折 的 条 件 就 会 是 True@， 程序 继续 要 求 输入 名 字 。 
如 果 numOfGuests 不 是 0@, 于 么 条 件 就 被 认为 是 True， 程序 就 会 为 用 户 输出 一 条 提醒 
信息 目 . 
可 以 用 not name !=: “代替 not name, a numofGuests != 0 代 闪 numofGuestsS， 
. 使 用 类 下 和 类 假 的 值 会 让 代码 更 容 吻 阅读 。- 


运行 这 个 程序 ， 提 供 一 些 输 入 。 只 有 你 声称 是 Joe， 它 才 会 要 求 输入 口令 。 一 旦 输入 了 正 
确 的 口令 ， 它 就 会 退出 : 


Who are you? 
I'm fine, thanks. Who are you? 
Who are you? 


Joe 

Hello, Joe. What is the password? (It is a fish.) 
Mary 

Who are you? 

Joe 

Hello, Joe. What is the password? (It is a fish.) 
swordfish 


Access granted. 


可 以 在 https://autbor.com/hellojoe/ 上 查看 这 个 程序 的 执行 情况 。 
2.7.8 for 循环 和 range() 函 数 


在 条 件 为 True 时 ,， while 循环 就 会 继续 执行 (这 是 它 的 名 称 的 由 来 )。 但 如 果 你 想 让 一 个 
代码 块 执行 固定 次 数 ， 该 怎么 办 ?可 以 通过 for 循环 语句 和 range() 函数 来 实现 。 

在 代码 中 ， for 循环 语句 的 形式 为 for i in range(5) :总 是 包含 以 下 部 分 。 

口 for 天 键 宁 。 

上 0 一 下 这 量 各 ， 

D in 关键 字 。 
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口 调用 range() 函 数 ， 最 多 传 入 3 个 参数 。 

口 冒号 。 

口 从 下 一 行 开 始 ， 缩 进 的 代码 块 〈 称 为 for 子 句 )。 

让 我 们 创建 一 个 新 的 程序 ， 命 名 为 iveTimes.py， 看 看 for 循环 的 效果 : 


print('My name is') 
for i in range(5): 
print('Jimmy Five Times (' + str(i) + ')') 


可 以 在 https://autbor.com/fivetimesfor/ 上 查看 该 程序 的 执行 情况 。for 循环 子 句 中 的 代码 运 
行 了 5 次。 第 一 次 运行 时 , 变量 i 被 设 为 0, 子 句 中 的 print () 调用 将 输出 Jimmy Five Times 
(0) 。Python 完成 for 循环 子 句 内 所 有 代码 的 一 次 迭代 之 后 ， 执 行将 回 到 循环 的 顶部 ，for 循 
环 语 句 让 工 增加 1。 这 就 是 为 什么 range (5) 导致 子 句 进行 了 5$ 次 迭代 ，i 分 别 被 设置 为 0、1、 
2、3、4。 变量 i 将 递增 到 (但 不 包括 ) 传递 给 range ( ) 函数 的 整数 。 图 2-13 所 示 为 fiveTimes.py 
程序 的 流程 图 。 


print('My name is') 


print('Jimmy Five Times (" + str(i) + ')') 


i in range (5) 


图 2-13 ”fiveTimes.py 的 流程 图 
运行 这 个 程序 时 ， 它 将 输出 5 次 Jimmy Five Times 和 的 值 ， 然 后 离开 for 循环 : 


My name is 

Jimmy Five Times (0) 
Jimmy Five Times (1) 
Jimmy Five Times (2) 
Jimmy Five Times (3) 
Jimmy Five Times (4) 
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注意 : 也 可 以 在 循环 中 使 用 break 和 continue 语 句 。Ccontinue 语 句 将 让 for 循 环 变量 继续 下 一 个 值 ， 
就 像 程序 执行 已 经 到 达 循 环 的 末尾 并 返回 开始 处 一 样 。 实 际 上 ， 只 能 在 While 和 for 循 环 内 部 使 
用 continue 和 break 语 句 。 如 果 试 图 在 别处 使 用 这 些 语句 ，Python 将 报错 。 


作为 for 循环 的 另 一 个 例子 ， 请 考虑 数学 家 高 斯 的 故事 。 当 高 斯 还 是 一 个 小 孩 时 ， 有 一 次 
老师 想 给 全 班 同 学 布置 很 多 计算 作业 ， 于 是 让 他 们 从 0 加 到 100。 高 斯 想到 了 一 个 聪明 办 法 ， 
在 几 秒 内 算出 了 答案 。 你 可 以 用 for 循环 写 一 个 Python 程序 ， 蔡 他 完成 计算 : 


@ total = 0 

@ for num in range(101): 
© total = total + num 

© print(total) 


结果 应 该 是 S050。 程 序 刚 开始 时 ，total 变量 被 设 为 0@。 然 后 for 循环 外 执行 100 次 
total = total + num@。 当 循环 完成 100 次 迭代 时 ，0 到 100 的 每 个 整数 都 加 给 了 total。 
这 时 ，total 被 输出 到 屏幕 上 @。 即 使 在 最 慢 的 计算 机 上 ， 这 个 程序 也 不 用 1 秒 就 能 完成 计算 。 

(小 高 斯 想到 ， 有 50 对 数 加 起 来 是 100: 0+100，1 + 99,2 + 98, 3 + 97，…，49 + 51。 因 为 
50 x 100 是 5000， 再 加 上 中 间 的 50， 所 以 0 到 100 的 所 有 数 之 和 是 5050。 聪 明 的 孩子 !) 


2.7.9 等 价 的 while 循环 


实际 上 可 以 用 while 循环 来 做 和 for 循环 同样 的 事 ， 只 是 for 循环 更 简洁 。 让 我 们 用 与 
for 循环 等 价 的 while 循环 履 写 fiveTimes.py: 


print('MY name is') 


while i < 5: 
print('Jimmy Five Times (' + str(i) + ')') 
和 


可 以 在 https://autbor.com/fivetimeswhile/ 查 看 这 个 程序 的 执行 情况 。 运 行 这 个 程序 ， 输 出 结 
果 应 该 和 使 用 for 循环 的 fiveTimes.py 程序 一 样 。 


2.7.10 range() 函 数 的 开始 、 停 止 和 步 长 参数 
某 些 函数 可 以 有 多 个 参数 调用 ， 参 数 之 间 用 去 号 分 开 ，range() 就 是 其 中 之 一 。 这 让 你 
能 够 改变 传递 给 range( ) 的 整数 ， 实 现 各 种 整数 序列 ， 包 括 从 0 以 外 的 值 开 始 的 序列 。 


for i in range{12, 16): 
print(i) 


第 一 个 参数 是 for 循环 变量 开始 的 值 ; 第 二 个 参数 是 上 限 ， 但 不 包含 它 ， 也 就 是 循环 停止 
的 数字 : 


2.8 导入 模块 37 


range ( ) 函数 也 可 以 有 第 三 个 参数 。 前 两 个 参数 分 别 是 起 始 值 和 终止 值 , 第 三 个 参数 是 “ 步 
长 ”。 步 长 是 每 次 迭代 后 循环 变量 增加 的 值 : 


Tor 1 4n range(0, 10, 2): 
print (i 


所 以 调用 range(0，10，2) 将 从 0 数 到 8， 间 隔 为 2: 


OD DO 


8 


在 为 for 循环 生成 序列 数据 方面 ，range( ) 函数 很 灵活 。 举 例 来 说 ， 甚 至 可 以 用 负数 作为 


步 长 参数 ， 让 循环 计数 逐渐 减少 ， 而 不 是 增加 : 


for i in range(S5, -1, -1): 
print (i) 


这 个 for 循环 的 输出 结果 如 下 : 


OT DPY 


执行 一 个 for 循环 ， 用 range (5，-1，-1) 来 输出 i， 结果 将 从 5 降 至 0。 


2.8 ”导入 模块 


Python 程序 可 以 调用 一 组 基本 的 函数 ， 这 称 为 “内 置 函 数 ”， 包 括 你 见 到 过 的 print()、 
input() 和 len() 函 数 。Python 也 包括 一 组 模块 ， 称 为 “标准 库 ”。 每 个 模块 都 是 一 个 Python 
程序 ， 包 含 一 组 相关 的 函数 ， 可 以 嵌入 你 的 程序 之 中 。 例如，math 模块 有 与 数学 运算 相关 的 函 
数 ，random 模块 有 与 随机 数 相 关 的 函数 等 。 

在 开始 使 用 一 个 模块 中 的 函数 之 前 ， 必 须 用 import 语句 导入 该 模块 。 在 代码 中 ，import 
语句 包含 以 下 部 分 。 

口 import 关键 字 。 

口 模块 的 名 称 。 

口 可 选 的 更 多 模块 名 称 ， 之 间 用 过 号 隔 开 。 

在 导入 一 个 模块 后 ， 就 可 以 使 用 该 模块 中 所 有 的 函数 。 让 我 们 试 一 试 random 模块 ， 它 让 
我 们 能 使 用 random.randint( ) 函数 。 

在 文件 编辑 器 中 输入 以 下 代码 ， 保 存 为 printRandom.py: 


import random 
for i in rangel(5) : 
print(random.randint(1, 10)) 


[= 
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如 果 运 行 这 个 程序 输出 看 起 来 可 能 像 下 面 这 样 


二 用 0 一 妨 


可 以 在 https://autbor.com/printrandom/ 上 查看 该 程序 的 执行 情况 。random. randint() 耳 
数 调用 求 值 为 传递 给 它 的 两 个 整数 之 间 的 一 个 随机 整数 。 因 为 randint() 属 于 random 模块 ， 
所 以 必须 在 函数 名 称 之 前 先 加 上 random.， 告 诉 Python 在 random 模块 中 寻找 这 个 函数 。 

下 面 是 import 语句 的 例子 ， 它 导入 了 4 个 不 同 的 模块 : 


import random, sys, 0s, math 


现在 我 们 可 以 使 用 这 4 个 模块 中 的 所 有 函数 。 在 本 书后 面 ， 我 们 将 学 习 更 多 的 相关 内 容 。 
from import 语句 


import 语句 的 另 一 种 形式 包括 from 关键 字 ， 之 后 是 模块 名 称 、import 关键 字 和 一 个 星 
号 ， 例 如 from random import *。 

使 用 这 种 形式 的 import 语句 , 调用 random 模块 中 的 函数 时 不 需要 random .前 级 ,但 是 ， 
使 用 完整 的 名 称 会 让 代码 更 具 可 读 性 ， 所 以 最 好 是 使 用 普通 形式 的 import 语句 。 


2.9 用 sys.exit() 函 数 提前 结束 程序 


要 介绍 的 最 后 一 个 控制 流 概念 是 如 何 终止 程序 。 当 程序 执行 到 指令 的 底部 时 ， 总 是 会 终止 。 
但 是 ， 调 用 sys .exit() 函 数 ， 可 以 让 程序 提前 终止 或 退出 。 因 为 这 个 函数 在 sys 模块 中 ， 所 
以 必须 先导 入 sys 才能 使 用 它 。 

打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 保 存 为 exitExample.py: 


import sys 
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while True: 
print('Type exit to exit.') 
response = input() 
if response == 'exit': 
sys.exit() 
print('You typed ' + response + '.') 


在 IDLE 中 运行 这 个 程序 。 该 程序 有 一 个 无 限 循环 ,里面 没 有 break 语句 。 结 束 该 程序 的 唯 
一 方式 就 是 用 户 输入 exit， 让 sys .exit() 函数 被 调用 。 如 果 response 等 于 exit, 程序 就 会 
终止 。 因 为 response 变量 由 input ( ) 函数 赋值 ， 所 以 用 户 必须 输入 exit 才能 停止 该 程序 。 


2.10 ”小 程序 ， 猜 数 字 


之 前 展示 的 那些 示例 对 于 引入 基本 概念 很 有 用 ， 现 在 来 看 看 如 何 将 你 所 学 到 的 一 切 在 一 个 
更 完整 的 程序 中 融合 在 一 起 。 这 一 节 将 展示 一 个 简单 的 “ 猜 数 字 ” 游 戏 。 运 行 该 程序 时 ， 输 出 
结果 如 下 所 示 : 


I am thinking of a number between 1 and 20. 
Take a guess. 

10 

Your guess is too low. 

Take a guess. 

15 

Your guess is too low. 

Take a guess. 


Your guess is too high. 
Take a guess. 


Good job! You guessed my number in 4 guesses! 


在 文件 编辑 器 中 输入 以 下 源 代 码 ， 并 将 文件 另存 为 guessTheNumber.py: 


# This is a guess the number game . 

import random 

secretNumber = random.randint(1, 20) 

print('I am thinking of a number between 1 and 20.') 


# Ask the player to guess 6 times. 
for guessesTaken in range(1, 7): 
print('Take a guess.') 
guess = int(input()) 


if guess < SecretNumber : 
print( "Your guess is too low.') 
elif guess > secretNumber: 
print('Your guess is too high.') 
else: 
break # This condition is the correct guess! 


if guess == secretNumber: 

print('Good job! You guessed my number in ' + str(guessesTaken) + ' guesses!') 
else: 

print('Nope. The number I was thinking of was ' + Str(SecretNumber) ) 


可 以 在 https://autbor.com/guessthenumber/ 上 查看 该 程序 的 执行 情况 。 让 我 们 逐 行 来 看 看 代 
码 , 从 头 开始 看 。 首先, 代码 顶部 的 一 行 注释 解释 了 这 个 程序 做 什么 .然后 , 程序 导入 了 模块 random， 
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以 便 能 用 random .randint ( ) 函数 生成 一 个 数字 , 让 用 户 来 猜 。 返回 值 是 一 个 1 到 20 之 间 的 随机 整 
数 ， 保 存在 变量 secretNumber 中 : 


# This is a guess the number game. 
import random 
secretNumber = random.randint(1, 20) 


程序 告诉 玩家 ， 它 有 了 一 个 秘密 数字 ， 并 且 给 玩家 6 次 猜测 机 会 。 在 for 循环 中 ， 代 码 让 
玩家 输入 一 次 猜测 ， 并 检查 该 猜测 。 该 循环 最 多 迭 代 6 次 。 循 环 中 发 生 的 第 一 件 事情 ， 是 让 玩 
家 输入 一 个 猜测 数字 。 因为 input () 函数 返回 一 个 字符 串 , 所 以 它 的 返回 值 被 直接 传递 给 int () 
函数 ， 它 将 字符 串 转 变 成 整数 。 这 保存 在 名 为 guess 的 变量 中 : 


print('I am thinking of a number between 1 and 20.°') 


# Ask the player to guess 6 times. 
for guessesTaken in range(1, 7): 
print('Take a guess.') 
guess = int(input()) 


这 几 行 代码 检查 该 猜测 是 小 于 还 是 大 于 那个 秘密 数字 。 不 论 哪 种 情况 ,都 在 屏幕 上 输出 
提示 : : 


if guess < SecretNumber : 
print('Your guess is too low.') 
elif guess > SecretNumber : 
print('Your guess is too high.') 


如 果 该 猜测 既 不 大 于 也 不 小 于 秘密 数字 ， 那 么 它 就 一 定 等 于 秘密 数字 ， 这 时 你 希望 程序 热 
行 跳出 for 循环 : 


else: 
break # This condition is the correct guess! 


在 for 循环 后 ， 前 面 的 if…else 语句 检查 玩家 是 否 正确 地 猜 到 了 该 数字 ， 并 将 相应 的 信 
明 输 出 在 屏幕 上 。 不 论 哪 种 情况 ， 程 序 都 会 输出 一 个 包含 整数 值 的 变量 (guessesTaken 和 
secretNumber), 因 为 必须 将 这 些 整数 值 连接 成 字符 串 , 所 以 它 将 这 些 变 量 传 递 给 str( ) 函数 ， 
该 函数 返回 这 些 整 数值 的 字符 串 形式 。 现 在 这 些 字符 串 可 以 用 + 操作 符 连 接 起 来 ， 最 后 传递 给 
print() 函 数 调 用 。 


if guess == sacretNumber: 

print('Good job! You guessed my number in ' + str(guessesTaken) + ' guesses!') 
else: 

print('Nooe. The number I was thinking of was ' + str(secretNumber)) 


2.11 小 程序 : 石 涉 、 纸 、 剪 刀 


让 我 们 利用 前 面 学 到 的 编程 概念 ， 创 建 一 个 简单 的 “石头 、 纸 、 剪 刀 ” 游 戏 。 输 出 结果 如 
下 所 示 : 


ROCK, PAPER, SCISSORS 
0 Wins, 0 Losses, 0 Ties 
Enter your move: (r)ock (p)aper (s)cissors or (q)uit 
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PApER VersuUuS... 

PAPER 

it is a tiei 

0 Wins, 0 Losses, 1 Ties 

Enter your move: (r)ock (p)aper (s)cissors or (q)uit 


s 
SCISSORS versus... 

PAPER 

YOU win! 

1 Wins, 0 Losses, 1 Ties 

Enter your move: (r)ock (p)aper (s)cissors or (q)uit 


q 


在 文件 编辑 器 中 输入 以 下 源 代 码 ， 并 将 文件 另存 为 psGame.py: 


import random, sys 


print('ROCK, PAPER， SCISSORS') 


# These variables keep track of the number of wins, losses, and ties. 
wins = 0 
losses 


= 0 
ties = 0 


while True: # The main game loop. 
print('%s Wins, %S Losses, %s Ties' % (wins, losses, ties)) 
while True: # The player input loop. 
print('Enter your move: (r)ock (p)aper (s)cissors or (q)uit') 
playerMove = input() 


if playerMove == "9 : 
SYS.exit() # Quit the program. 
if playerMove == 'r' or playerMove == 'p' or playerMove == 's': 


break # Break out of the player input loop. 
print('Type one of r, p, s, or q.') 


# Display what the player chose: 
if playerMove == 'r': 
print('ROCK versus...') 
elif playerMove == ‘pi: 
print( PAPER VorsuSs。。 ) 
elif playerMove == 's': 
print('SCISSORS versus...') 


# Display what the computer chose: 
randomNumber = random.randint(1, 3) 
if randomNumber == 1: 
computerMove = “『” 
print('ROCK') 
elif randomNumber == 2: 
computerMove = “p” 
print('PAPER') 
elif randomNumber == 3: 
computerMove = 's' 
print('SCISSORS') 


# Display and record the win/loss/tie: 
if playerMove == ComputerMove : 

print(t"it 48 & T1069 

ties = ties + 1 


elif playerMove == 'r' and computerMove == 'S': 
print('You win!') 
wins = wins + 1 

elif playerMoveé == 'p' and computerMove == 'r': 


print('You Winl ) 
Wins = Wins + 1 
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elif playerMove == 'S' and computerMove == 'p': 
print('You win!') 
wins = wins + 1 

elif playerMove == 'r' and computerMove == 'p': 
print('You lose!') 
losses = losses + 1 

elif playerMove == 'p' and computerMove == 's': 
print('You lose!') 
losses = losses + 1 

elif playerMove == 'S' and computerMove == 'r': 
print('You lose!') 
losses = losses + 1 


我 们 从 头 开始 逐 行 查看 这 段 代码 。 


import random, SYS 


print('ROCK, PAPER, SCISSORS') 


# These variables keep track of the number of wins, losses, and ties. 
wins = 0 

losses = 0 

ties = 0 


首先 , 导入 random 和 sys 模块 , 以 便 程序 可 以 调用 random.randint() 和 sys.exit() 
函数 。 我 们 还 设置 了 3 个 变量 来 跟踪 玩家 所 获得 的 胜利 、 失 败 和 平局 。 


while True: # The main game loop. 
print('%S Wins, %s Losses, %s Ties' % (wins, losses, ties)) 
while True: # The player input loop. 
print('Enter your move: (r)ock (p)aper (s)cissors or (9q)uit') 
playerMove = input() 


if playerMove == 'q ': 
SyS.exit() # Quit the program. 
if playerMove == 'r' or playerMove == 'p' or playerMove == 'S': 


break # Break out of the player input loop. 
print('Type one of r, p, S$§, or q.') 


该 程序 在 一 个 while 循环 内 使 用 了 另 一 个 while 循环 。 第 一 个 循环 是 主 程序 循环 ， 在 这 
个 循环 的 每 次 迭代 中 ， 玩 家 玩 一 局 石头 、 纸 和 前 刀 游 戏 。 第 二 个 循环 要 求 玩家 输入 ， 并 一 直 循 
直到 玩家 输入 r、p、s 或 q 作为 其 选择 。r、p 和 s 分 别 对 应 于 石头 、 纸 和 前 刀 ; 而 9 则 
表示 玩家 打算 退出 ， 在 这 种 情况 下 ， 将 调用 sys .exit( ) 函 数 并 退出 程序 。 如 果 玩 家 输入 了 rr、 
p 或 s， 则 执行 会 跳出 循环 ， 否则 ， 程 序 会 提醒 玩家 输入 r、p、s 或 q， 然 后 返回 循环 的 起 点 。 


# Display what the player chose: 


if playerMove == 'r': 
printft 'ROCK versus...') 
elif playerMove == 'p': 
print('PAPER versus...') 
elif playerMove == 's': 
print('SCISSORS versus...') 
玩家 的 选择 会 显示 在 屏幕 上 。 


# Display what the computer chose: 
randomNumber = random.randint(1, 3) 
if randomNumber == 

computerMove = 和 Fr 

print( ROCK ' ) 
elif randomNumber == 2: 

computerMove = “pp 
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print('PAPER') 
elif randomNumber == 3: 

computerMove = 's' 

print('SCISSORS') 


接 下 来 ， 随 机 选择 计算 机 的 选择 。 由 于 random.randint( ) 函数 只 能 返回 随机 数 ， 因 此 它 
返回 的 整数 值 1、2 或 3 存储 在 名 为 randomNumber 的 变量 中 。 程 序 根据 randomNumber 中 的 
整数 ， 在 computerMove 中 存储 'r'、'p' 或 's' 字 符 串 ， 并 显示 计算 机 的 选择 。 


# Display and record the win/loss/tie: 
if playerMove == computerMove: 


print('It is a tie!') 
ties = ties + 1 

elif playerMove == 'r' and computerMove == 'S': 
print('You win!') 
wins = wins + 1 

elif playerMove == 'p' and computerMove = 
print('You win!') 
wins = wins + 1 

elif playerMove == 's' and computerMove 
print('You win!') 
wins = wins + 1 

elif playerMove == 'r' and computerMove == 'p': 
print('You lose!') 
losses = losses + 1 

elif playerMove == 'p' and computerMove == 's': 
print('You lose!') 
losses = losses + 1 

elif playerMove == 's' and computerMove == 'r': 
print('You lose!') 
losses = losses + 1 


最 后 ， 该 程序 比较 playerMove 和 computerMove 中 的 字符 串 ， 并 将 结果 显示 在 屏幕 上 。 
它 还 会 相应 增加 wins、losses 或 ties 变量 的 值 。 一 旦 执行 结束 ， 它 将 跳 回 到 主 程序 循环 的 
开始 处 ， 开始 男 一 局 游戏 。 
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通过 使 用 求 值 为 True 或 False 的 表达 式 〈 也 称 为 条 件 )， 你 可 以 编写 程序 来 决定 哪些 代 
码 执行 ， 哪 些 代码 跳 过 。 只 要 某 个 条 件 求 值 为 True， 可 以 在 循环 中 一 遍 又 一 遍地 执行 代码 。 
如 果 需 要 跳出 循环 或 回 到 开始 处 ，break 和 continue 语句 很 有 用 。 

这 些 控制 流 语句 可 以 让 你 写 出 非常 智能 化 的 程序 。 还 有 另 一 种 类 型 的 控制 流 ， 你 可 以 通过 
编写 自己 的 函数 来 实现 ， 这 是 下 一 和 草 的 主题 。 


2.13 ”习题 


.布尔 数据 类 型 的 两 个 值 是 什么 ? 如 何 拼写 ? 

3 个 布尔 操作 符 是 什么 ? 

. 写 出 每 个 布尔 操作 符 的 真 值 表 〔 也 就 是 操作 数 的 每 种 可 能 组 合 ， 以 及 操作 的 结果 )。 
.以 下 表达 式 求 值 的 结果 是 什么 ? 


一 


4 
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(5 > 4) and (3 == 5) 

not (5 > 4) 

(5 > 4) or (3 == 5) 

not ((5 > 4) or (3 == 5)) 

(True and True) and (True == False) 
(not False) or (not True) 


5. 6 个 比较 操作 符 是 什么 ? 

6. 等 于 操作 符 和 赋值 操作 符 的 区 别 是 什么 ? 
7. 解释 什么 是 条 件 ， 可 以 在 哪里 使 用 条 件 。 
8. 识别 这 段 代码 中 的 3 个 语句 块 : 


spam = 0 
if spam == 10: 
print('eggs') 
if spam > 5: 
print('bacon') 
else: 
print('ham’) 
print('spam') 
print( "Spam ') 


9. 编写 代码 , 如 果 变 量 spam 中 存放 1, 就 输出 He11o; 如 果 变 量 中 存放 2, 就 输出 Howdy:; 


如 果 变 量 中 存放 其 他 值 ， 就 输出 Greetings。 


10. 如 果 程 序 陷 在 一 个 无 限 循 环 中 ， 你 可 以 按 什 么 键 退出 循环 ? 
11. break 和 continue 语句 之 间 的 区 别 是 什么 ? 
12. 在 for 循环 中 ，range(10)、range(0，10) 和 range(0，10，1) 之 间 的 区 别 是 


什么 ? 


13. 编写 一 小 段 程序 ， 利 用 for 循环 输出 从 1 到 10 的 数字 。 然 后 利用 while 循环 编写 一 


个 等 价 的 程序 ， 输 出 从 1 到 10 的 数字 。 


14. 如 果 在 名 为 spam 的 模块 中 ， 有 一 个 名 为 bacon( ) 的 函数 ， 那 么 在 导入 spam 模块 后 ， 


如 何 调 用 它 ? 


附加 题 : 在 因特网 上 查找 round() 和 abs () 函 数 ， 卉 清楚 它们 的 作用 。 在 交互 式 环境 中 学 


试 使 用 它们 。 


在 前 面 的 章节 中 ,你 已 经 熟悉 了 print()、input() 和 1len() 函 数 。 
j= Python 提供 了 这 样 一 些 内 置 函数 ,你 也 可 以 编写 自己 的 浮 数 。“ 函 数 ” 就 

Se 像 一 个 程序 内 的 小 程序 。 

Rs: 为 了 更 好 地 理解 函数 的 工作 原理 , 让 我 们 来 创建 一 

个 函数 。 在 文件 编辑 器 中 输入 下 面 的 程序 ， 保 存 为 


PE 
< 


Be ee : 
ON 
RS i A pe > fie 


A Wai» helloFunc py: 
~ A . 


@ def hellol() : 
@ print('Howdy!') 
print('Howdy!!!') 
print('Hello there.') 


@ hellol) 
hellol() 
hellol() 


可 以 在 https://autbor.com/hellofunc/ 上 查看 这 个 程序 的 执行 情况 。 第 一 行 是 def 语句 @， 它 
定义 了 一 个 名 为 hell0( ) 的 函数 。def 语句 之 后 的 代码 块 是 函数 体 @。 这 段 代码 在 函数 调用 时 
执行 ， 而 不 是 在 函数 第 一 次 定义 时 执行 。 

六 数 之 后 的 hello( ) 语 句 行 是 录 数 调用 人 @。 在 代码 中 ,函数 调 用 就 是 函数 名 后 跟 上 括号 ,也 
许 在 括号 之 间 有 一 些 参 数 。 如 果 程 序 执行 遇 到 这 些 调 用 ， 就 会 跳 到 函数 的 第 一 行 ， 开 始 执行 那里 
的 代码 。 如 果 执 行 到 达 函 数 的 末尾 ， 就 回 到 调用 函数 的 那 行 ， 继 续 像 以 前 一 样 向 下 执行 代码 。 

因为 这 个 程序 调用 了 3 次 hello() 函 数 ， 所 以 函数 中 的 代码 就 执行 了 3 次 。 在 运行 这 个 程 
序 时 ， 输 出 结果 看 起 来 像 下 面 这 样 : 

Howdy ! 

Howdy!!! 

Hello there. 

Howdy ! 

Howdy!!! 

Hello there. 

Howdy ! 


Howdy!!! 
Hello there. 
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函数 的 一 个 主要 作用 就 是 将 需要 多 次 执行 的 代码 放 在 一 起 。 如 果 没 有 函数 定义 ， 你 可 能 每 
次 都 需要 复制 、 粘 贴 这 些 代码 ， 程 序 看 起 来 可 能 会 像 下 面 这 样 : 


print('Howdy!') 
print('Howdy!!!’) 
print('Hello there.') 


print('Howdy!') 
print('Howdy!!!") 
print('Hello there.') 
print('Howdy!') 
print('Howdy!!!") 
print('Hello thsre.') 


一 般 来 说 ， 我 们 总 是 希望 避免 复制 代码 ， 因 为 如 果 一 旦 决定 要 更 新 代码 (例如 发 现 了 一 个 
bug 要 修复 )， 就 必须 记 住 要 修改 所 有 复制 的 代码 。 

随 着 获得 越 来 越 多 的 编程 经 验 ， 你 常常 会 发 现 自 己 在 为 代码 “消除 重复 ”， 即 去 除 一 些 重复 
或 复制 的 代码 。 消 除 重复 能 够 使 程序 更 短 、 更 易 读 、 更 容易 更 新 。 


3.1 def 语句 和 参数 


如 果 调 用 print() 或 len() 函 数 ， 你 会 传 入 一 些 值 放 在 括号 之 间 ， 称 为 “参数 ”。 也 可 以 
自己 定义 接收 参数 的 函数 。 在 文件 编辑 器 中 输入 下 面 这 个 例子 ， 将 它 保存 为 helloFunc2.py: 


@ def hello(name): 
©@ print('Hello, ' + name) 


© hello('Alice') 
hello('Bob') 


如 果 运 行 这 个 程序 ， 输 出 结果 看 起 来 像 下 面 这 样 : 


Hello, Alice 
Hello, Bob 


可 以 在 https://autbor.com/hellofunc2/ 上 查看 该 程序 的 执行 情况 。 在 这 个 程序 的 hel1lo() 函 
数 定义 中 ， 有 一 个 名 为 name 的 变 元 @。“ 变 元 ”是 一 个 变量 ， 当 函数 被 调用 时 ， 参 数 就 存放 在 
其 中 。hello( ) 函 数 第 一 次 被 调用 时 ， 使 用 的 参数 是 'Alice'@。 程序 执行 进入 该 函数 ， 变 量 
name 自动 设 为 'Alice'， 就 是 被 print() 语 句 输出 的 内 容 @。 

关于 变 元 有 一 件 特殊 的 事情 值得 注意 : 保存 在 变 元 中 的 值 ， 在 函数 返回 后 就 丢失 了 。 例 如 
前 面 的 程序 ， 如 果 你 在 hello('Bob' ) 之 后 添加 print (name)， 程 序 会 报 NameError， 因 为 
没有 名 为 name 的 变量 。 在 函数 调用 hello('Bob') 返 回 后 ， 这 个 变量 被 销毁 了 ， 所 以 
print(name ) 会 引用 一 个 不 存在 的 变量 name。 

这 类 似 于 程序 结束 时 ， 程 序 中 的 变量 会 被 丢弃 。 在 本 章 后 续 内 容 中 ， 当 我 们 探讨 函数 的 局 
部 作用 域 时 ， 我 会 进一步 分 析 为 什么 会 这 样 。 


定义 、 调 用 、 传 递 、 参 数 、 变 元 
术语 “定义 ”“ 调 用 ”“ 传 递 ”““ 参 数 ” 和 “ 变 元 ”可 能 会 造成 混 消 。 我 们 看 一 段 代 码 示例 来 
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复习 这 些 术语 : 


@ def sayHello(name): 
print('Hello, '+ name) 
@ sayHello('Al') 


“定义 ”一 个 函数 就 是 创建 一 个 函数 ， 就 像 spam = 42 这 样 的 赋值 语句 会 创建 spam 变量 
一 样 。def 语句 定义 了 sayHello() 函 数 @。sayHello('Al') 行 @“ 调 用 ”刚才 创建 的 函数 ， 
并 将 执行 转 到 函数 代码 的 开始 处 。 这 个 函数 调用 也 称 为 将 字符 串 值 'AL' “传递 ”给 该 函数 。 在 
函数 调用 中 ， 传 递 给 函数 的 值 是 “参数 ”。 参 数 'Al' 被 赋 给 名 为 name 的 局 部 变量 。 接 收 参 数 
赋值 的 变量 是 “ 变 元 ”。 

这 些 术 语 很 容易 弄 混 ， 但 是 保持 术语 原样 可 以 确保 你 准确 了 解 本 章 中 的 含义 。 


3.2 ”返回 值 和 return 语句 


如 果 调 用 len() 函数 ， 并 向 它 传 入 像 'Hello' 这 样 的 参数 ， 函 数 调用 就 求 值 为 整数 5。 这 
是 传 入 的 字符 串 的 长 度 。 一 般 来 说 ， 函 数 调用 求 值 的 结果 ， 称 为 函数 的 “返回 值 ”。 
用 def 语句 创建 函数 时 ， 可 以 用 return 语句 指定 应 该 返回 什么 值 。return 语句 包含 以 
下 部 分 。 
口 return 关键 字 。 
口 函数 应 该 返回 的 值 或 表达 式 。 
如 果 在 return 语句 中 使 用 了 表达 式 ， 返 回 值 就 是 该 表达 式 求 值 的 结果 。 例 如 ， 下 面 的 程 
序 定义 了 一 个 函数 ， 它 根据 传 入 的 数字 参数 ， 返 回 一 个 不 同 的 字符 串 。 在 文件 编辑 器 中 输入 以 
下 代码 ， 并 保存 为 magic8Ball.py: 
© import random 
@ def getAnswer (answerNumber): 


© if answerNumber == 1: 
return 'It is certain' 


elif answerNumber == 2: 

return 'It is decidedly SO 
elif answerNumber == 3: 

return 'Yes' 
elif answerNumber == 4: 

return 'Reply hazy try again' 
elif answerNumber == 5: 

return "Ask again later' 
elif answerNumber == 6: 

return “Concentrate and ask again' 
elif answerNumber == 7: 

return "MY reply is no' 
elif answerNumber == 8: 

return ‘Outlook not so good' 
elif answerNumber == 9: 


return “Very doubtful' 


@ r= random.randint(1, 9) 
© fortune = getAnswer(r) 
© print(fortune) 
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可 以 在 https://autbor.com/magic8ball/ 上 查看 这 个 程序 的 执行 情况 。 在 这 个 程序 开始 时 ， 
Python 首先 导入 random 模块 @。 然 后 getAnswer () 函数 被 定义 @@。 因 为 函数 是 被 定义 (而 不 
是 被 调用 ) 的 ， 所 以 执行 会 跳 过 其 中 的 代码 。 接 下 来 ，random.randint() 函 数 被 调用 ， 和 市 两 
个 参数 ， 分 别 为 1 和 9@。 它 求 值 为 1 和 9 之 间 的 一 个 随机 整数 (包括 1 和 9)， 这 个 值 被 存在 
一 个 名 为 r 的 变量 中 。 

getAnswer ( ) 函数 被 调用 ， 以 r 作为 参数 @。 程 序 执行 转移 到 getAnswer( ) 函数 的 顶部 
@,r 的 值 被 保存 到 名 为 answerNumber 的 变 元 中 。 然 后 ,根据 answerNumber 中 的 值 ， 函 数 
返回 许多 可 能 字符 串 中 的 一 个 。 程序 执行 返回 到 程序 底部 的 代码 行 , 即 原来 调用 getAnswer () 
函数 的 地 方 @。 返 回 的 字符 串 被 赋 给 一 个 名 为 fortune 的 变量 ， 然 后 它 又 被 传递 给 print () 
调用 @， 并 被 输出 在 屏幕 上 。 

请 注意 , 因为 可 以 将 返回 值 作 为 参数 传递 给 另 一 个 函数 调用 , 所 以 你 可 以 将 下 面 3 行 代码 : 


r = random.randint(1, 9) 
fortune = getAnswer (r) 
print(fortune) 


缩写 成 1 行 等 价 的 代码 : 
print(getAnswer (random.randint(1, 9))) 


记 住 ， 表 达 式 是 值 和 操作 符 的 组 合 。 函 数 调 用 可 以 用 在 表达 式 中 ， 因 为 它 求 值 为 它 的 返回 值 。 


3.3 None 值 


在 Python 中 有 一 个 值 称 为 None, 它 表 示 没 有 值 .None 是 NoneType 数据 类 型 的 唯一 值 (其 
他 编程 语言 可 能 称 这 个 值 为 nul11、nil 或 undefined)。 就 像 布尔 值 True 和 False 一 样 ， 
None 的 首 字母 N 必须 大 写 。 

如 果 你 希望 变量 中 存储 的 东西 不 会 与 一 个 真正 的 值 混 消 ， 这 个 没有 值 的 值 就 可 能 有 用 。 有 
一 个 使 用 None 的 地 方 就 是 print() 函 数 的 返回 值 。print( ) 函 数 在 屏幕 上 显示 文本 , 但 它 不 需 
要 返回 任何 值 ， 这 和 len( ) 函数 或 input ( ) 函数 不 同 。 但 既然 所 有 函数 调用 都 需要 求 值 为 一 个 
返回 值 ， 那 么 print ( ) 函数 就 返回 None。 要 看 到 这 个 效果 ， 请 在 交互 式 环境 中 输入 以 下 代码 : 

>>> spam = print('Hello!') 

Hello! 


>>> None == spam 
True 


在 幕后 ， 对 于 所 有 没有 return 语句 的 函数 定义 ，Python 都 会 在 末尾 加 上 return None。 
这 类 似 于 while 或 for 循环 隐 式 地 以 continue 语 名 结尾。 而且， 如果 使 用 不 带 值 的 return 
语句 (也 就 是 只 有 return 关键 宁 本 身 )， 也 返回 None。 


3.4 “关键 字 参 数 和 print() 函 数 


大 多 数 参 数 是 由 它们 在 函数 调用 中 的 位 置 来 识别 的 。 例 如 ，random.randint(1，10) 与 
random.randint(10,1) 不 同 。 函 数 调用 random.randint(1,10) 将 返回 1 到 10 之 间 的 一 个 随 
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机 整数 ， 因 为 第 一 个 参数 是 范围 的 下 界 ， 第 二 个 参数 是 范围 的 上 界 (而 random.randint(10,1) 
会 导致 错误 )。 

但 是 ,“ 关 键 字 参 数 ” 是 在 函数 调用 时 由 它们 前 面 的 关键 字 来 识别 的 。 关键 字 参数 通常 用 于 
“可 选 变 元 ” 例如 ，print() 函 数 有 可 选 的 变 元 end 和 sep， 分 别 指定 在 参数 末尾 输出 什么 ， 
以 及 在 参数 之 间 输 出 什么 来 隔 开 它 们 。 

如 果 运 行 以 下 程序 : 


print('Hello’) 
print('World’) 


输出 结果 将 会 是 : 


Hello 
World 


这 两 个 字符 串 出 现在 独立 的 两 行 中 , 因为 print( ) 函 数 自动 在 传 入 的 字符 串 未 尾 添加 了 换 
行 符 。 可 以 设置 end 关键 字 参 数 ， 将 它 变 成 另 一 个 字符 串 。 例 如， 如 果 程 序 像 这 样 : 


print('Hello', end="'") 
print('World') 


输出 结果 就 会 像 这 样 : 


HelloWorld 


输出 被 显示 在 一 行 中 ， 因 为 在 'Hel1o' 后面 不 再 输出 换行 ， 而 是 输出 了 一 个 空 字 符 串 。 如 
果 需 要 禁用 加 到 每 一 个 print ( ) 函数 调用 末尾 的 换行 符 ， 这 就 很 有 用 。 

类 似 地 ， 如 果 向 print ( ) 函 数 传 入 多 个 字符 串 值 ， 该 函数 就 会 自动 用 一 个 空格 分 隔 它们 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> print('cats', 'dogs', 'mice') 
cats dogs mice 


你 可 以 传 入 sep 关键 字 参 数 ， 替 换 掉 默认 的 分 隔 字 符 串 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> print('cats', 'dogs', 'mice', sep=',"') 
cats,dogs,mice 


也 可 以 在 你 编写 的 函数 中 添加 关键 字 参 数 ， 但 必须 先 在 接 下 来 的 两 章 中 学 习 列表 和 字典 数 
据 类 型 。 现 在 只 要 知道 ， 茶 些 消 数 有 可 选 的 关键 字 参 数 ， 在 函数 调用 时 可 以 指定 。 
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想象 一 下 你 与 菜 人 聊天 。 你 谈论 你 们 的 朋友 Alice， 然 后 让 你 想起 关于 同事 Bob 的 故事 ， 
但 首先 你 必须 介绍 一 下 表 弟 Carol 的 情况 。 你 讲 完了 关于 Carol 的 故事 后 ， 又 回 到 谈论 Bob 的 
话题 ， 当 你 讲 完 关 于 Bob 的 故事 时 ， 又 回 到 了 谈论 Alice 的 话题 。 但 是 随后 你 想起 了 你 的 兄弟 
David 的 故事 ， 因 此 你 讲述 了 一 个 关于 他 的 故事 ， 然 后 回来 完成 最 初 有 关 Alice 的 故事 。 对 话 遵 
循 类 似 栈 的 结构 ， 如 图 3-1 所 示 。 对 话 类 似 于 栈 ， 当 前 主题 始终 位 于 栈 的 顶部 。 


po 
pr er er Ce CI I 
图 3-1 聊天 对 话 栈 


与 我 们 聊天 对 话 类 似 , 调用 函数 不 会 将 执行 过 程 单 向 发 送 到 函数 开始 处 。Python 会 记 住 
哪 行 代码 调用 了 该 函数 ， 以 便 程序 执行 在 遇 到 return 语句 时 可 以 返回 那里 。 如 果 那 个 最 
初 的 函数 又 调用 了 其 他 函数 ， 则 执行 将 首先 返回 那些 函数 调用 ， 然 后 再 从 最 初 的 函数 调用 
返回 。 

打开 文件 编辑 器 窗口 ， 然 后 输入 以 下 代码 ， 并 将 它 男 存 为 abcdCallStack.py: 


def al(): : 
print('a() starts') 
0 b() 
@ dl() 
print('a() returns') 


def bl() : 
print('b() starts’') 

@cl() 
print('b() returns') 


def c(): 
@ print('c() starts') 
print('c() returns ' ) 


def d(): 
print('d() starts'’) 
print('d() returns ' ) 


© al) 

运行 这 个 程序 ， 输 出 结果 会 像 下 面 这 样 : 
a() starts 

b() starts 

c() starts 


c() returns 
b() returns 
d() starts 

d() returns 
a() returns 


可 以 在 https://autbor.com/abcdcallstack/ 上 查看 该 程序 的 执行 情况 。 当 a( ) 函数 被 调用 时 @， 
它 调用 b() 函 数 @， 后 者 义 调用 c() 函 数 @。c() 函 数 不 会 调用 任何 东西 ; 它 只 是 显示 c() 妙 数 
开始 @ 和 c( ) 函数 返回 ， 再 返回 到 b( ) 函数 中 调用 它 的 那 一 行 目 。 一 旦 执行 返回 到 b( ) 函数 中 
调用 c( ) 函数 的 代码 ， 它 就 会 返回 到 a( ) 函数 中 调用 b( ) 函数 的 行 了 @。 执 行 继续 到 a( ) 函数 中 
的 下 一 行 @， 这 是 对 d( ) 函 数 的 调用 。 像 c() 函数 一 样 ，d( ) 函数 也 不 会 调用 任何 东西 。 它 只 
是 显示 d( ) 函数 开始 和 d ( ) 函数 返回 ， 然 后 返回 到 a( ) 函数 中 调用 它 的 行 。 由 于 d() 刀 数 不 包 
含 其 他 代码 ， 因 此 执行 返回 到 a( ) 函数 中 调用 d() 函 数 的 行 @@。a( ) 函数 的 最 后 一 行 显示 a() 
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函数 返回 ， 然 后 返回 该 程序 末尾 的 最 初 对 a( ) 函数 的 调用 @。 

“调用 栈 ” 是 Python 记 住 每 个 函数 调用 后 在 哪里 返回 执行 的 方式 。 调 用 栈 不 是 存储 在 程序 
的 变量 中 ， 而 是 由 Python 在 后 台 处 理 它 。 当 程序 调用 一 个 函数 时 ，Python 在 调用 栈 的 顶部 创建 
一 个 “ 帧 对 象 ”。 帧 对 象 保 存 了 最 初 函数 调用 的 行 号 ， 使 得 Python 可 以 记 住 返回 的 位 置 。 如 果 
进行 了 另 一 个 函数 调用 ，Python 会 将 另 一 个 帧 对 象 放 在 调用 栈 中 ， 且 在 前 一 个 帧 对 象 之 上 。 

当 函 数 调用 返回 时 , Python 从 栈 顶 部 删除 一 个 帧 对 象 , 并 将 执行 转移 至 保存 在 其 中 的 行 号 。 
请 注意 ， 帧 对 象 始 终 是 从 栈 顶 部 添加 和 删除 的 ， 而 不 是 从 其 他 任意 位 置 。 图 3-2 所 示 为 在 调用 
和 返回 每 个 函数 时 ，abcdCallStack.py 中 的 调用 栈 的 状态 。 


-I 峙 -cl 
dd ss = Ed = EE Cd sd bs 


图 3-2 调用 栈 的 帧 对 象 ， 随 着 abcdCallStack.py 调用 函数 并 从 函数 返回 


调用 栈 的 项 部 是 执行 当前 所 处 的 位 置 。 当 调用 栈 为 空 时 , 执行 位 于 所 有 函数 之 外 的 一 行 上 。 
你 不 需要 完全 了 解 调用 栈 也 能 编写 程序 。 理 解 函数 调用 返回 到 它们 被 调用 的 行 号 就 足够 了 。 
但 是 ， 理 解 调用 栈 让 你 可 以 更 容易 理解 局 部 和 全 局 作用 域 ， 这 将 在 下 一 节 中 介绍 。 


3.6 ”局 部 和 全 局 作用 域 


在 被 调用 函数 内 赋值 的 变 元 和 变量 ， 处 于 该 函数 的 “局 部 作用 域 ” 中 。 在 所 有 函数 之 外 赋 
值 的 变量 ， 处 于 “全 局 作用 域 ” 中 。 处 于 局 部 作用 域 中 的 变量 ， 被 称 为 “局 部 变量 ”。 处 于 全 局 
作用 域 中 的 变量 , 被 称 为 “全 局 变量 ”。 一 个 变量 必 属 于 其 中 一 种 , 不 能 既是 局 部 的 又 是 全 局 的 。 

可 以 将 “作用 域 ” 看 成 变量 的 容器 。 当 作用 域 被 销毁 时 ， 所 有 保存 在 该 作用 域内 的 变量 的 
值 就 被 丢弃 了 。 只 有 一 个 全 局 作用 域 ， 它 是 在 程序 开始 时 创建 的 。 如 果 程 序 终止 ， 全 局 作用 域 
就 被 销毁 ， 它 的 所 有 变量 就 被 丢弃 了 。 和 否则 ， 下 次 你 运行 程序 的 时 候 ， 这 些 变量 就 会 记 住 它们 
上 次 运行 时 的 值 。 

一 个 函数 被 调用 时 ， 就 创建 了 一 个 局 部 作用 域 。 在 这 个 函数 内 赋值 的 所 有 变量 ， 存 在 于 该 
局 部 作用 域内 。 该 函数 返回 时 ， 这 个 局 部 作用 域 就 被 销毁 了 ， 这 些 变量 就 丢失 了 。 下 次 调用 这 个 
函数 时 ， 局 部 变量 不 会 记得 该 函数 上 次 被 调用 时 它们 保存 的 值 。 

作用 域 很 重要 ， 理 由 如 下 。 

口 全 局 作用 域 中 的 代码 不 能 使 用 任何 局 部 变量 。 

口 局 部 作用 域 中 的 代码 可 以 访问 全 局 变量 。 

口 一 个 函数 的 局 部 作用 域 中 的 代码 ， 不 能 使 用 其 他 局 部 作用 域 中 的 变量 。 

口 在 不 同 的 作用 域 中 ， 你 可 以 用 相同 的 名 字 命 名 不 同 的 变量 。 也 就 是 说 ， 可 以 有 一 个 名 为 

spam 的 局 部 变量 和 一 个 名 为 spam 的 全 局 变量 。 

Python 设计 了 不 同 的 作用 域 ， 而 不 是 让 所 有 变量 都 成 为 全 局 变量 ， 这 是 有 理由 的 。 因 为 这 
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样 一 来 ， 当 用 特定 函数 调用 中 的 代码 来 修改 变量 时 ， 该 函数 与 程序 其 他 部 分 的 交互 只 能 通过 它 
的 参数 和 返回 值 来 进行 。 这 缩小 了 可 能 导致 bug 的 代码 作用 域 。 如 果 程 序 只 包含 全 局 变量 ， 叉 
有 一 个 变量 赋值 错误 的 bug， 那 就 很 难 追 踪 这 个 赋值 错误 发 生 的 位 置 。 它 可 能 在 程序 的 任何 地 
方 赋值 ,而 你 的 程序 可 能 有 几 百 到 几 千 行 ! 但 如 果 bug 是 因为 局 部 变量 错误 赋值 ， 你 就 会 知道 ， 
只 有 那 一 个 函数 中 的 代码 可 能 产生 赋值 错误 。 

虽然 在 小 程序 中 使 用 全 局 变量 没有 太 大 问题 ， 但 当 程 序 变 得 越 来 越 大 时 ， 依 赖 全 局 变量 就 
是 一 个 坏 习惯 。 


3.6.1 ”局 部 变量 不 能 在 全 局 作用 域内 使 用 
运行 下 面 的 程序 ， 它 在 运行 时 会 产生 错误 : 


def Spam() : 

@ eggs = 31337 
spam( ) 

print (eggs) 


如 果 运 行 这 个 程序 ， 输 出 结果 将 是 : 


Traceback (most recent call last): 
File "C:/test3784.py", line 4, in <module> 
print(eggs) 
NameError: name 'eggs' is not defined 


发 生 错 误 是 因为 ，eggs 变量 只 属于 spam() 调 用 所 创建 的 局 部 作用 域 @。 在 程序 执行 从 
spam 返回 后 ， 该 局 部 作用 域 就 被 销毁 了 ， 不 再 有 名 为 eggs 的 变量 。 所 以 当 程 序 试图 执行 
print(eggs) 时 ，Python 就 报错 ， 说 eggs 没有 定义 。 你 想 想 看 ， 这 是 有 意义 的 。 当 程序 在 全 
局 作用 域 中 执行 时 ， 不 存在 局 部 作用 域 ， 所 以 不 会 有 任何 局 部 变量 。 这 就 是 为 什么 只 有 全 局 变 
量 能 作用 于 全 局 作用 域 。 


3.6.2 ”局 部 作用 域 不 能 使 用 其 他 局 部 作用 域内 的 变量 


当 函 数 被 调用 时 ， 新 的 局 部 作用 域 就 会 被 创建 ， 这 包括 一 个 函数 被 另 一 个 函数 调用 时 的 情 
(es 请 看 以 下 代码 : 
def spam(): 
© eggs = 99 
@ bacon!() 
© print(eggs) 


def baconl( ) : 
ham = 101 
@ eggs = 0 


© spam() 
可 以 在 https://autbor.com/otherlocalscopes/ 上 查看 这 个 程序 的 执行 情况 。 在 程序 开始 运行 时 ， 
spam( ) 了 浮 数 被 调用 @， 创建 了 一 个 局 部 作用 域 。 局 部 变量 eggs@ 被 赋值 为 99。 然 后 bacon () 
阴 数 被 调用 @， 创 建 了 第 二 个 局 部 作用 域 。 多 个 局 部 作用 域 能 同时 存在 。 在 这 个 新 的 局 部 作用 
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域 中 ， 局 部 变量 ham 被 赋值 为 101。 局 部 变量 eggs (与 spam( ) 函数 的 局 部 作用 域 中 的 那个 变 
量 不 同 〉 也 被 创建 @， 并 赋值 为 0。 
当 bacon( ) 函数 返回 时 , 这 次 调用 的 局 部 作用 域 被 销毁 。 程序 执行 在 spam( ) 函数 中 继续 ， 
输出 eggs 的 值 目 。 因 为 spam( ) 调用 的 局 部 作用 域 仍然 存在 ， 所 以 eggs 变量 被 赋值 为 99。 这 al 
3 


就 是 程序 的 输出 。 
要 扣 在 于 ， 一 个 函数 中 的 局 部 变量 要 完全 与 其 他 函数 中 的 局 部 变量 分 隔 开 来 。 


3.6.3 全 局 变量 可 以 在 局 部 作用 域 中 读 取 
请 看 以 下 程序 : 


def Spam( ) : 
print(eggS) 
eggs = 42 
Spam( ) 
print(eggs) 
可 以 在 https://autbor.com/readglobal/ 上 查看 这 个 程序 的 执行 情况 。 因 为 在 spam( ) 函 数 中 ， 
没有 变量 名 为 eggs， 也 没有 代码 为 eggs 赋值 ， 所 以 当 spam( ) 函数 使 用 eggs 时 ，Python 认 


为 它 是 对 全 局 变量 eggs 的 引用 。 这 就 是 前 面 的 程序 运行 时 会 输出 42 的 原因 。 


3.6.4 ”名 称 相同 的 局 部 变量 和 全 局 变量 


从 技术 上 讲 ， 在 Python 中 让 局 部 变量 和 全 局 变量 同名 是 完全 合法 的 。 但 要 想 程序 简单 ， 就 
要 避免 这 样 做 。 为 了 了 解 实际 发 生 的 情况 ， 请 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 


sameName.py: 


def spam(): 
© eggs = 'spam local' 
print (eggs) # prints 'spam local' 


def bacon(): 
@ eggs = 'bacon local' 
print (eggs) # prints 'bacon local' 
spam() 
print (eggs) # prints “bacon local' 


© eggs = 'global' 
bacon() 
print(eggs ) # prints 'global' 


运行 该 程序 ， 输 出 结果 如 下 : 


bacon local 
spam local 
bacon local 
global 


可 以 在 https://autbor.com/localglobalsamename/ 上 查看 这 个 程序 的 执行 情况 。 在 这 个 程序 中 ， 
实际 上 有 3 个 不 同 的 变量 ， 但 令 人 迷惑 的 是 ， 它 们 都 名 为 eggs。 这 些 变量 如 下 。 


@ 名 为 eggs 的 变量 ， 存 在 于 spam( ) 函数 被 调用 时 的 局 部 作用 域 。 

@ 名 为 eggs 的 变量 ， 存 在 于 bacon( ) 函数 被 调用 时 的 局 部 作用 域 。 

@ 名 为 eggs 的 变量 ， 存 在 于 全 局 作用 域 。 

因为 这 3 个 独立 的 变量 都 有 相同 的 名 字 ， 追 踪 某 一 个 时 刻 使 用 的 是 哪个 变量 ， 可 能 比较 麻 
烦 。 这 就 是 应 该 避免 在 不 同 作用 域内 使 用 相同 变量 名 的 原因 。 


3.7 ”global 语句 


如 果 需 要 在 一 个 函数 内 修改 全 局 变量 ， 就 使 用 global 语句 。 如 果 在 函数 的 顶部 有 global 
eggs 这 样 的 代码 ， 它 是 在 告诉 Python:“ 在 这 个 函数 中 ，eggs 指 的 是 全 局 变量 ， 所 以 不 要 用 这 个 
名 字 创 建 一 个 局 部 变量 。” 例 如， 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 globalStatement.py: 


def spam(): 
©@ global eggs 
四 eggs = “Spasm' 


eggs = 'global' 


spam( ) 
print (eggs) 


运行 该 程序 ， 最 后 的 print( ) 调 用 将 输出 : 
spam 


可 以 在 https://autbor.com/globalstatement/ 上 查看 这 个 程序 的 执行 情况 ,因为 eggs 在 spam() 
函数 的 顶部 被 声明 为 global1@， 所 以 当 eggs 被 赋值 为 'spam' 时 @， 赋 值 发 生 在 全 局 作用 域 
的 eggs 上 ,没有 创建 局 部 eggs 变量 。 

有 4 条 法 则 用 来 区 分 一 个 变量 是 处 于 局 部 作用 域 还 是 全 局 作用 域 。 

口 如 果 变 量 在 全 局 作用 域 中 使 用 ( 即 在 所 有 子 数 之 外 )， 它 就 是 全 局 变量 。 

口 如 果 在 一 个 函数 中 ， 有 针对 该 变量 的 global 语句 ， 它 就 是 全 局 变量 。 

口 如 果 该 变量 用 于 函数 中 的 赋值 语句 ， 它 就 是 局 部 变量 。 

口 如 果 该 变量 没有 用 在 赋值 语句 中 ， 它 就 是 全 局 变量 。 

为 了 更 好 地 理解 这 些 法 则 ， 这 里 有 一 个 示例 程序 。 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 
为 sameNameLocalGlobal.py: 


def Spam( ) : 
0 global eggs 
eggs = 'spam' # this is the global 


def bacon( ) : 
©@ eggs =“bacon' # this is a local 


def ham(): 
© print(eggs) # this is the global 


eggs = 42 # this is the global 
spam( ) 
print (eggs) 
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在 spam( ) 函数 中 ，eggs 是 全 局 变量 ， 因 为 在 函数 的 开始 处 ， 有 针对 eggs 变量 的 global 语 
句 O@。 在 bacon() 函 数 中 ，eggs 是 局 部 变量 ， 因 为 在 该 函数 中 有 针对 它 的 赋值 语句 @。 在 ham() 函 
数 中 @@，eggs 是 全 局 变量 ， 因 为 在 这 个 函数 中 ， 既 没有 赋值 语句 ， 也 没有 针对 它 的 global 语句 。 
如 果 运 行 sameNameLocalGlobal.py， 输 出 结果 将 是 : 

spam 

可 以 在 https://autbor.com/sameNameLocalGlobal/ 上 查看 这 个 程序 的 执行 情况 。 在 一 个 函数 中 ， 
一 个 变量 要 么 总 是 全 局 变量 ， 要 么 总 是 局 部 变量 。 函 数 中 的 代码 没有 办 法 先 使 用 名 为 eggs 的 局 部 
变量 ， 稍 后 又 在 同一 个 函数 中 使 用 名 为 eggs 全 局 变量 。 


注意 : 如 果 想 在 一 个 函数 中 修改 全 局 变量 中 存储 的 值 ， 就 必须 对 该 变量 使 用 g10bal 语 句 。 


在 一 个 函数 中 ， 如 果 试 图 在 局 部 变量 赋值 之 前 就 使 用 它 ， 像 下 面 的 程序 这 样 ，Python 就 会 
报错 。 为 了 看 到 效果 ， 请 在 文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 sameName4.py: 
def Spaml( ) : 


print(eggs) # ERROR! 
@ eggs = 'spam local' 


@ eggs = 'global' 
spam!() 


运行 前 面 的 程序 ， 会 产生 错误 信息 : 


Traceback (most recent call last): 
File "C:/test3784.py", line 6, in <module> 
spam( ) 
File "C:/test3784.py", line 2, in spam 
print(eggs) # ERROR! 
UnboundLocalError: local variable 'eggs' referenced before assignment 


可 以 在 https://autbor.com/sameNameError/ 上 查看 这 个 程序 的 执行 情况 。 发 生 这 个 错误 是 因 
为 ，Python 看 到 spam( ) 函数 中 有 针对 eggs 的 赋值 语句 Q@， 认 为 eggs 变量 是 局 部 变量 。 但 是 
因为 print(eggs) 的 执行 在 eggs 赋值 之 前 ， 所 以 局 部 变量 eggs 并 不 存在 。Python 不 会 退回 
以 使 用 eggs 全 局 变量 @。 


函数 作为 “ 黑 盒 ” 


: 通常， 对 于 一 个 函数 ， 体 要 知道 的 就 是 它 ;的 输入 值 ( 变 元 ) 和 输出 值 休 并 非 总 是 需 
要 训 重 自己 的 负担 ， 开 清关 函数 的 代码 实际 是 怎样 工作 的 如 果 以 这 种 高 层 的 方式 来 思考 
画 数 ， 通 常 大 家 会 说 ， 这 里 将 该 硬 数 看 上 成 一 个 黑金 


\ “这 个 思想 是 现代 编程 的 基础 。 本 书后 面 的 章节 将 向 休 展 示 一 些 模 决 ， 其 中 的 洒 教 是 由 
其 他 人 编写 的 。 尽管 你 在 好 奇 的 时 候 也 可 以 看 一 看 源 代码 ， 但 如 果 仅 仅 为 了 能 使 用 它们 ， 
你 并 不 需要 知道 它们 是 如 何 工作 的 。 而 且 ， 因为 吉 励 在 纺 写 碌 时 不 使 用 全 局 变量 ， 所 以 
你 通常 也 不 必 担心 函 数 的 代码 会 与 程序 的 其 他 部 分 发 生 交叉 影响 
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3.8 异种 处 理 


到 目前 为 止 ， 在 Python 程序 中 遇 到 错误 或 “异常 ”， 就 意味 着 整个 程序 骨 演 。 你 不 希望 这 
发 生 在 真实 世界 的 程序 中 。 相 反 ， 你 希望 程序 能 检测 错误 ， 处 理 它们 ， 然 后 继续 运行 。 

例如 ， 运 行 下面 的 程序 ， 它 有 一 个 “除数 为 零 ” 的 错误 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 
输入 以 下 代码 ， 并 保存 为 zeroDivide.py: 


def Spam(divideBy) : 
return 42 / divideBy 


print(spam(2)) 
print (spam(12)) 
print(spam(0)) 
print (spam(1)) 


我 们 已 经 定义 了 名 为 spam 的 函数 ， 给 了 它 一 个 变 元 ， 然 后 输出 当 输入 为 不 同 参数 时 该 函 
数 的 值 ， 看 看 会 发 生 什么 情况 。 下 面 是 运行 前 面 代码 的 输出 结果 : 


21.0 
3.5 
Traceback (most recent call last): 
File "C:/zeroDivide.py", line 6, in <module> 
print(spam(0)) 
File "C:/zeroDivide.py", line 2, in spam 
return 42 / divideBy 
ZeroDivisionError: division by zero 


可 以 在 https://autbor.com/zerodivide/ 上 查看 该 程序 的 执行 情况 。 当 试图 用 一 个 数 除 以 零 时 ， 
就 会 发 生 ZeroDivisionError 错误 。 根 据 错误 信息 中 给 出 的 行 号 ， 我 们 知道 spam( ) 函数 中 
的 return 语句 导致 了 一 个 错误 。 

错误 可 以 由 try 和 except 语句 来 处 理 。 那 些 可 能 出 错 的 语句 被 放 在 try 子 句 中 。 如 果 错 
误 发 生 ， 程 序 执行 就 转 到 接 下 来 的 except 子 句 开始 处 。 

可 以 将 前 面 除数 为 零 的 代码 放 在 一 个 try 子 句 中 ， 让 except 子 句 包含 完成 该 错误 发 生 时 
应 该 做 的 事 的 代码 : 

def Spam(divideBy) : 

try: 
return 42 / divideBy 


except ZeroDivisionError: 
print('Error: Invalid argument.') 


print (spam(2)) 
print(spam(12)) 
print (spam(0)) 
print (spam(1)) 


如 果 在 try 子 句 中 的 代码 导致 一 个 错误 ， 程 序 执行 就 立即 转 到 except 子 句 的 代码 。 在 运 
行 那些 代码 之 后 ， 执 行 照常 继续 。 前 面 程序 的 输出 结果 如 下 : 


21s0 
3.5 
Error: Invalid argument. 
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调用 
调用 


None 
42.0 


可 以 在 https://autbor.com/tryexceptzerodivide/ 上 查看 这 个 程序 的 执行 情况 。 请 注意 ， 在 函数 
的 try 语句 块 中 ,发 生 的 所 有 错误 都 会 被 捕捉 .请 阅读 以 下 程序 , 它 的 做 法 不 一 样 ,将 spam() 
放 在 语句 块 中 : 


def spam(divideBy): 
return 42 / divideBy 


try: 


print(spam(2)) 
print (spam(12)) 
print (spam(0)) 
print(spam(1)) 


except ZeroDivisionError: 


print('Error: Invalid argument.') 


该 程序 运行 时 ， 输 出 结果 如 下 : 


21.0 
3.5 


E 


rror: Invalid argument. 


可 以 在 https://autbor.com/spamintry/ 上 查看 该 程序 的 执行 情况 。print (spam(1)) 从 未 被 执行 ， 
是 因为 一 旦 执行 跳 到 except 子 句 的 代码 ， 就 不 会 回 到 try 子 句 。 它 会 继续 向 下 执行 。 


3.9 


小 程序 : Zigzag 


让 我 们 利用 到 目前 为 止 所 学 的 编程 知识 ， 创 建 一 个 小 型 动画 程序 。 该 程序 将 创建 往复 的 名 


齿 形 图 案 , 直到 用 户 单 击 Mu 编辑 器 的 Stop 按钮 或 按 Ctrl-C 快捷 键 停 止 它 为 止 。 运 行 该 程序 时 ， 
输出 结果 如 下 所 示 : 


实 次 


实 宙 实 实 实 守 实 宙 
突 突 实 实 突 突 实 实 
兴 丙 实 实 次 实 天 实 
突 实 实 突 突 突 六 并 


顽 实 内 去 灾 次 


实 赤 炎 灾 次 袖 顽 家 


在 


夹 焉 去 顽 类 去 次 天 
实 实 守 实 突 实 实 突 


帘 问 灾 实 实 志 实 实 


文件 编辑 器 中 输入 以 下 代码 ， 并 保存 为 zigzag.py: 


import time, SYS 


indent = 0 # How many Spaces to indent. 
indentIncreaSling = True # Whether the indentation is increasing or not. 
trys 


while True: # The main program loop. 
print(' ' * indent, end="'') 
信访 于 史 信 入 玫 交 交 半 委 守 守 0 


time.sleep(0.1) # Pause for 1/10 of a second. 


if indentIncreasing: 
# Increase the number of spaces: 
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indent = indent + 1 
if indent == 20: 
# Change direction: 
indentIncreasing = False 
else: 
才 Decrease the number of spaces: 
indent = indent - 1 
if indent == 0: 
# Change direction: 
indentIncreasing = True 
except KeyboardInterrupt : 
sys.exit() 


让 我 们 逐 行 来 看 看 代码 ， 从 头 开始 。 


import time, SYS 
indent = 0 # How many Spaces to indent. 
indentIncreasing = True # Whether the indentation is increasing or not. 


首先 ， 我 们 将 导入 time 和 sys 模块。 我 们 的 程序 使 用 两 个 变量 : indent 变量 跟踪 星 号 带 
之 前 的 缩 进 间 隔 ; indentIncreasing 变量 包含 一 个 布尔 值 ， 用 于 确定 缩 进 量 是 增加 还 是 减少 。 


trey 
while True: # The main program loop. 

print(" ' * indent, end='') 

print{("***rewwer ) 

time.sleep(0.1) # Pause for 1/10 of a second. 


接 下 来 ， 我 们 将 程序 的 其 余部 分 放 在 try 语句 中 。 当 用 户 在 运行 Python 程序 的 同时 接 
Ctrl-C 快捷 键 ，Python 会 引发 KeyboardInterrupt 异常 。 如 果 没 有 try. . .except 语句 来 捕 
获 这 个 异常 ， 程 序 将 崩溃， 并 显示 错误 信息 。 但 是 ， 对 于 我 们 的 程序 ， 我 们 希望 它 通 过 调用 
sys .exit( ) 函 数 来 干净 地 处 理 KeyboardInterrupt 异常 。( 此 代码 位 于 程序 末尾 的 except 
语句 中 。) 

while True: 无 限 循环 将 永远 重复 我 们 程序 中 的 指令 。 这 包括 使 用 ' ' * indent 来 输 
出 正确 数量 的 缩 进 空格 。 我 们 不 希望 在 这 些 空格 之 后 自动 输出 换行 ， 因 此 我 们 也 将 end ='' 传 
递 给 第 一 个 print() 调 用 。 第 二 个 print() 调 用 将 输出 星 号 带 。time .sleep() 函 数 还 没有 介 
绍 过 ， 但 是 此 时 只 要 知道 ， 它 在 我 们 的 程序 中 引入 了 1/10 秒 的 暂停 即 可 。 


if indentIncreasing: 
# Increase the number of Spaces: 
indent = indent + 1 
if indent == 20: 
indentIncreasing = False # Change direction. 


接 下 来 ， 我 们 要 在 下 次 输出 星 号 时 调整 缩 进 量 。 如 果 indentIncreasing 为 True， 则 要 
向 indent 添加 1。 但 是 一 旦 缩 进 达到 20， 我 们 就 希望 缩 进 减 少 。 


else: 
# Decrease the number of Spaces: 
indent = indent - 1 
if indent == 0: 


indentIncreasing = True # Change direction. 


同时 ， 如 果 indentIncreasing 为 False， 那 么 我 们 想 从 缩 进 量 中 减 去 1。 缩 进 量 达到 0 
我 们 希望 缩 进 量 再 次 增加 。 无 论 哪 种 情况 ， 程 序 执 行 都 将 跳 回 到 主 程序 循环 的 开头 ， 再 


本 
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次 输出 星 号 。 


except KeyboardInterrupt : 
sys.exit() 


如 果 用 户 在 程序 执行 位 于 try 块 中 的 任何 时 候 按 Ctrl-C 快捷 键 ， 则 会 引起 Keyboard- 
Interrupt 异常 ,该 异常 由 except 语句 处 理 . 程 序 执行 转 问 except 块 内 ,该 块 调用 sys .exit() 
函数 并 退出 程序 。 这 样 ， 即 使 主 程序 循环 是 一 个 无 限 循环 ， 用 户 也 可 以 关闭 程序 。 


3.10 小结 


函数 是 将 代码 逻辑 分 组 的 主要 方式 。 因 为 函数 中 的 变量 存在 于 它们 自己 的 局 部 作用 域内 ， 
所 以 一 个 函数 中 的 代码 不 能 直接 影响 其 他 函数 中 变量 的 值 。 这 限制 了 哪些 代码 才能 改变 变量 的 
值 ， 对 于 调试 代码 是 很 有 帮助 的 。 

函数 是 很 好 的 工具 ， 可 帮助 你 组 织 代 码 。 你 可 以 认为 它们 是 黑 盒 。 它 们 以 参数 的 形式 接收 
输入 ， 以 返回 值 的 形式 产生 输出 。 它 们 内 部 的 代码 不 会 影响 其 他 函数 中 的 变量 。 

在 前 面 几 章 中 , 一 个 错误 就 可 能 导致 程序 崩 演 。 在 本 章 中 , 你 学 习 了 try 和 except 语句 ， 
它们 在 检测 到 错误 时 会 运行 代码 。 这 让 程序 在 面 对 常 见 错误 时 更 有 灵活 性 。 


3.11 习题 


. 为 什么 在 程序 中 加 入 函数 会 有 好 人 处? 

.函数 中 的 代码 何 时 执行 : 是 在 函数 被 定义 时 ， 还 是 在 函数 被 调用 时 ? 
. 用 什么 语句 创建 一 个 函数 ? 

.一 个 函数 和 一 次 图 数 调 用 有 什么 区 别 ? 

. Python 程序 中 有 多 少 全 局 作用 域 ? 有 多 少 局 部 作用 域 ? 

， 当 函数 调用 返回 时 ， 局 部 作用 域 中 的 变量 发 生 了 什么 ? 

. 什么 是 返回 值 ? 返回 值 可 以 作为 表达 式 的 一 部 分 吗 ? 

.如 果 函 数 没 有 返回 语句 ， 对 它 进行 调用 的 返回 值 是 什么 ? 
， 如 何 强 制 函数 中 的 一 个 变量 引用 是 全 局 变量 ? 

10. None 的 数据 类 型 是 什么 ? 

11. import areallyourpetsnamederic 语句 做 了 什么 ? 


12. 如 果 在 名 为 spam 的 模块 中 有 一 个 名 为 bacon( ) 的 函数 ， 那 在 引入 spam 后 ， 如 何 调 


oo A OO WW 一 


‘DO 


13. 如 何 防 止 程序 在 遇 到 错误 时 崩溃 ? 
14. try 子 句 中 发 生 了 什么 ? except 子 句 中 发 生 了 什么 ? 


3.12 ”实践 项 目 
作为 实践 ， 请 编写 程序 完成 下 列 任务 。 
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3.12.1 ”Collatz 序列 


编写 一 个 名 为 collatz( ) 的 函数 ， 它 有 一 个 名 为 number 的 参数 。 如 果 参 数 是 偶数 ， 那 么 
collatz( ) 就 输出 number // 2， 并 返回 该 值 。 如 果 number 是 奇数 ，collatz() 就 输出 并 
返回 3 * number + 1。 

然后 编写 一 个 程序 ， 让 用 户 输 入 一 个 整数 ， 并 不 断 对 这 个 数 调用 col1latz() 函 数 ， 直 到 函 
数 返 回 值 为 1 〈 令 人 惊奇 的 是 ， 这 个 序列 对 于 任何 整数 都 有 效 ， 利 用 这 个 序列 ， 你 迟早 会 得 到 
1。 即 使 数学 家 也 不 能 确定 为 什么 。 你 的 程序 在 研究 所 谓 的 “Collatz 序列 ”， 它 有 时 候 被 称 为 
“最 简单 的 、 不 可 能 的 数学 问题 ”)。 

记得 将 input ( ) 函数 的 返回 值 用 int ( ) 函 数 转 换 成 一 个 整数 ， 否 则 它 会 是 一 个 字符 串 。 


提示 : 如 果 number % 2 == 0， 整数 number 就 是 偶数 ; 如 果 number % 2 == 1， 它 就 是 奇数 。 
这 个 程序 的 输出 结果 看 起 来 应 该 像 下 面 这 样 : 


Enter number : 
3 


3.12.2 输入 验证 


在 前 面 的 项 目 中 添加 try 和 except 语句 ， 检 测 用 户 是 否 输入 了 一 个 非 整 数 的 字符 串 。 在 
正常 情况 下 ，int() 函 数 在 传 入 一 个 非 整 数字 符 串 时 ， 会 产生 ValueError 错误 ， 例 如 
int('puppy')。 在 except 子 句 中 ， 回 用 户 和 输出 一 条 信息 ， 告 诉 他 们 必须 输入 一 个 整数 。 
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列表 


在 你 能 够 开始 编写 程序 之 前 , 还 有 一 个 主题 需要 理解 ， 那 就 是 列表 数据 
类 型 及 元 组 。 列表 和 元 组 可 以 包含 多 个 值 ， 这 样 编写 程序 来 处 理 大 量 数 据 就 
变 得 更 容易 。 而 且 ， 由 于 列表 本 身 又 可 以 包含 其 他 列表 ， 因 此 可 以 用 它们 将 
数据 安排 成 层次 结构 。 

本 章 将 探讨 列表 的 基础 知识 。 我 也 会 讲授 关于 方法 的 内 容 。 方 法 也 
是 防 数 ， 它们 与 特定 数据 类 型 的 值 绑 定 。 然 后 我 会 简单 介绍 序列 数据 类 
型 ( 列表、 元 组 和 字符 事 )， 以 及 对 它们 进行 比较 。 第 5 章 将 介绍 字典 
赦 据 类 型 dt a 


4.1 列表 数据 类 型 


“列表 ”是 一 个 值 ， 包 含 由 多 个 值 构成 的 序列 。 术 语 “ 列 表 值 ” 指 的 是 列表 ”吉明 垦 
本 身 〈 它 作为 一 个 值 ， 可 以 保存 在 变量 中 或 传递 给 函数 ， 像 所 有 其 他 值 一 样 )， OA 
而 不 是 指 列表 值 之 内 的 那些 值 。 列 表 值 看 起 来 像 这 样 : ['cat', 'bat', 'rat', 'elephant']。 
就 像 字符 串 值 用 引号 来 标记 字符 串 的 起 止 一 样 ， 列 表 以 左 方 插 号 开始 ， 以 右 方 括号 结束 ， 即 中 。 列 
表 中 的 值 也 称 为 “ 表 项 ”。 表 项 用 逗号 分 隔 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 

>>> ft 肪 。3] 

Es 和 

>>> ['cat', 'bat', 'rat', 'elephant'] 

['cat', 'bat', 'rat', 'elephant'’] 

>>> ['hello', 3.1415, True, None, 42] 

['hello', 3.1415, True, None, 42] 

© >>> spam = ['cat', 'bat', 'rat', 'elephant'’]) 

-oe vo 'rat', 'elephant') 

spam 变量 @ 仍 然 只 被 赋予 一 个 值 : 列表 值 ， 但 列表 值 本 身 包含 多 个 值 。 值 [] 是 一 个 空 列 
表 ， 不 包含 任何 值 ， 类 似 于 空 字 符 串 "。 


4.1.1 用 索引 取得 列表 中 的 单个 值 


假定 列表 ['cat'，'bat'，'rat'，'elephant'] 保 存在 名 为 spam 的 变量 中 。spam[0] 
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将 求 值 为 'cat'，spam[1] 将 求 值 为 'bat'， 依 此 类 推 。 
变量 名 后 面 方 括号 内 的 整数 被 称 为 “索引 ”。 列 表 中 第 一 \ 
个 值 的 索引 是 0， 第 二 个 值 的 索引 是 1， 第 三 个 什 的 家 引 fy ob) ad 
是 2， 依 此 类 推 。 图 4-1 所 示 为 一 个 赋 给 spam 变量 的 列 站 Le 
表 值 ,以 及 索引 表达 式 的 求 值 结果 。 请 注意 , 因为 第 一 个 站 康 抽 人 
索引 为 0， 所 以 最 后 一 个 索引 比 列 表 的 大 小 少 1 : 4 个 数 
据 项 的 列表 的 最 后 一 个 索引 为 3。 

例如 ， 在 交互 式 环境 中 输入 以 下 表达 式 。 开 始 时 将 列表 赋 给 变量 spam: 


>>> Spam = ['cat', 'bat', 'rat', 'elephant'’] 
>>> spam[0] 
cat 
>>> spam[1] 
'bat' 
>>> spam[2] 
"at" 
>>> Spam[3] 
“elephant 
>>> ['cat’, “人 rat's "olephant" [13] 
‘elephant' ， 
@ >>> 'Hello, ' + Spam[0] 
四 'Hello, cat' 
>>> 'The ' + spam[1] + ' ate the ' + Spam[0] + '.' 
‘The bat ate the cat.' 


spam = ["cat", "bat", "rat", "elephant"] 


请 注意 ， 表 达 式 'Hello，' + spam[0] @ 求 值 为 'Hello,，' + 'cat'， 因 为 spam[0] 
求 值 为 字符 串 'cat' 。 这 个 表达 式 也 因此 求 值 为 字符 串 'Hello，cat'@。 
如 果 使 用 的 索引 超出 了 列表 中 值 的 个 数 ，Python 将 给 出 IndexError 错误 信息 : 


>>> spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> Spam[10000] 
Traceback (most recent call last): 
File "<pyshell#9>"*, line 1, in <module> 
spam[ 10000] 
IndexError: list index out of range 


索引 只 能 是 整数 ， 不 能 是 浮 点 数 。 下 面 的 例子 将 导致 TypeError 错误 : 


>>> Spam = ['cat', 'bat', 'rat', 'elephant ] 
>>> Spam[1] 
"bat 
>>> Spam[1.0] 
Traceback (most recent call last): 
File "<pyshell#13>", line 1, in <module> 
spam[1.0] 
TypeError: list indices must be integers or slices, not float 
>>> spam[int(1.0)] 
"bat' 


列表 也 可 以 包含 其 他 列表 值 。 这 些 列表 值 中 的 值 可 以 通过 多 重 索 引 来 访问 ， 像 这 样 : 

>>> spam = [['cat'， 'bat']，[10，20，30，40，50]] 
>>> Spam[0] 

EC 

>>> Spam[0][1] 
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“bat 
>>> Spam[1][4] 
50 


第 一 个 索引 表明 使 用 哪个 列表 值 ， 第 二 个 索引 表明 该 列表 值 中 的 值 。 例 如 ，spam[0][1] 
输出 'bat'， 即 第 一 个 列表 中 的 第 二 个 值 。 如 果 只 使 用 一 个 索引 ， 程 序 将 输出 该 索引 处 的 完整 
列表 值 。 


4.1.2 ”负数 索引 


虽然 索引 从 0 开始 并 向 上 增长 , 但 也 可 以 用 负 整 数 作为 索引 。 整 数值 -1 指 的 是 列表 中 的 最 
后 一 个 索引 ，-2 指 的 是 列表 中 倒数 第 二 个 索引 ， 以 此 类 推 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = ['cat', 'bat', 'rat', 'elephant'] 

>>> Spam[-1] 

'elephant' 

>>> spam[-3] 

‘bat' 

>>> 'The ' + Spam[-1] + ' is afraid of the ' + Spam[-3] + '.' 
'The elephant is afraid of the bat.' 


4.1.3 ”利用 切片 取得 子 列表 


就 像 索 引 可 以 从 列表 中 取得 单个 值 一 样 ,“ 切 片 ” 可 以 从 列表 中 取得 多 个 值 ， 结 果 是 一 个 新 
列表 。 切 片 用 一 对 方 括号 来 表示 它 的 起 止 ， 像 索引 一 样 ， 但 它 有 两 个 由 冒号 分 隔 的 整数 。 请 注 
意 索 引 和 切片 的 不 同 。 

D spam[2] 是 一 个 列表 和 索引 〈 一 个 整数 )。 

D spam[1:4] 是 一 个 列表 和 切片 〈 两 个 整数 )。 

在 一 个 切片 中 ， 第 一 个 整数 是 切片 开始 处 的 索引 。 第 二 个 整数 是 切片 结束 处 的 索引 。 切 片 
癌 上 增长 ， 直 至 第 二 个 索引 的 值 ， 但 不 包括 它 。 切 片 求 值 为 一 个 新 的 列表 值 。 在 交互 式 环境 中 
输入 以 下 代码 : 


>>> spam = ['cat', 'bat', 'rat'’, 'elephant']) 
>>> spam[0:4] 

['cat', 'bat', 'rat', 'elephant'] 

>>> spam[1:3] 

Lbat"s “mat™) 

>>> Spam[0:-1] 

ent ss "Dat a reat } 


作为 快捷 方法 ， 你 可 以 省 略 切 片 中 冒号 两 边 的 一 个 索引 或 两 个 索引 。 省 略 第 一 个 索引 相当 
于 使 用 索引 0 或 从 列表 的 开始 处 开始 。 省 略 第 二 个 索引 相当 于 使 用 列表 的 长 度 ， 意 味 着 切片 直 
至 列表 的 末尾 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> Spam[:2] 

ont Dat” 

>>> spam[1:] 

['bat', 'rat', 'elephant'] 

>>> spam[:] 

[cat 'bat”, "rat”, "elephant']} 
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4.1.4 用 Ilen() 函 数 取得 列表 的 长 度 


len( ) 函数 将 返回 传递 给 它 的 列表 中 值 的 个 数 ， 就 像 它 能 计算 字符 串 中 字符 的 个 数 一 样 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = ['cat', 'dog', ‘moose']) 
>>> len(spam) 
3 


.5 用 索引 改变 列表 中 的 值 


一 般 情 况 下 ， 赋 值 语句 左边 是 一 个 变量 名 ， 就 像 spam = 4。 但 是 ， 也 可 以 使 用 列表 的 索 
引 来 改变 索引 处 的 值 。 例 如 ，spam[1] = 'aardvark' 意 味 着 “将 列表 spam 索引 1 处 的 值 赋 
为 字符 串 'aardvark'。 在 交互 式 环境 中 输入 以 下 代码 : 


4. 


一 人 


>>> Spam = ['cat', 'bat', 'rat', 'elephant '] 


>>> Spam[1] = 'aardvark' 

>>> spam 

['cat', 'aardvark', 'rat', 'elephant'] 
>>> Spam[2] = spam[1] 

>>> Spanm 


['cat', ‘aardvark', 'aardvark', 'elephant'] 
>>> Spam[-1] = 12345 

>>> spam 

['cat', 'aardvark', 'aardvark', 12345] 


4.1.6 ”列表 连接 和 列表 复制 


列表 可 以 连接 和 复制 ， 就 像 字 符 串 一 样 。+ 操 作 符 可 以 连接 两 个 列表 ， 得 到 一 个 新 列表 。 
* 操 作 符 可 以 用 于 一 个 列表 和 一 个 整数 ， 实 现 列 表 的 复制 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> [1, 2, 3] + ['A', 'B', 'C'] 
[Uf 2 3 A By 0) 

wR 
0 
>>> Spam = [1, 2，3] 

>>> spam = spam + ['A', 'B', 'C'] 

>>> spam 

bi 2 3 A Bs &) 


4.1.7 用 del 语句 从 列表 中 删除 值 


del 语句 将 删除 列表 中 索引 处 的 值 ， 列 表 中 被 删除 值 后 面 的 所 有 值 ， 都 将 四 前 移动 一 个 过 
引 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = ['cat', 'bat', 'rat', 'elephant'] 
>>> del spam[2] 

>>> spam 

['cat', 'bat', 'elephant'] 

>>> del spam[2] 
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del 语句 也 可 用 于 一 个 简单 变量 ， 删 除 它 ， 起 “取消 赋值 ”语句 的 作用 。 如 果 在 删除 之 后 试 


图 使 用 该 变量 ， 


就 会 遇 到 NameError 错误 ， 因 为 该 变量 已 不 存在 。 在 实践 中 ， 你 几乎 永远 不 需 


要 删除 简单 变量 。del 语句 几乎 总 是 用 于 删除 列表 中 的 值 。 


4.2 使 用 列表 


当 你 第 一 次 开始 编程 时 ， 很 可 能 会 创建 许多 独立 的 变量 ， 来 保存 一 组 类 似 的 值 。 例 如 ， 如 
果 要 保存 你 的 猫 的 名 字 ， 可 能 会 写 出 下 面 这 样 的 代码 : 


catName1 = 
catName2 = 
catName3 = 
catName4 = 
catName5 = 
catName6 = 


事实 表明 ， 


'Zophie' 
'Pooka' 
'Simon' 

'Lady Macbeth' 
‘Fat-tail'’ 
'Miss Cleo'’ 


这 是 一 种 不 好 的 编程 方式 。 举 一 个 例子 ， 如 果 猫 的 数目 发 生 改变 ， 程 序 就 不 得 


不 增加 变量 来 保存 更 多 的 猫 。 这 种 类 型 的 程序 有 很 多 重复 或 几乎 相同 的 代码 。 考 虑 下 面 的 程序 
中 有 多 少 重 复 代 码 ， 在 文本 编辑 器 中 输入 它 并 保存 为 allMyCats1.py: 


print('Enter the name of cat 13: 
catName1 = input() 
print('Enter the name of cat 2: 
catName2 = input() 


catName3 = input() 
print('Enter the name of cat 4:' 
catName4 = inputl() 


print('Enter the name of cat 5:' 
catName5 = input() 

print('Enter the name of cat 6:' 
catName6 = input() 

print('The cat names are:') 


) 
) 
print('Enter the name of cat 3:') 
) 
) 
) 


print(catName1 + ' ' + catName2 + ' ' + catName3 + ' ' + catName4 + ' ' + 


CatName5 + ' 


”+ catName6) 


不 必 使 用 多 个 重复 的 变量 ， 你 可 以 使 用 单个 变量 ， 该 变量 包含 一 个 列表 值 。 例 如 ， 下 面 是 
新 的 改进 版 本 的 allMyCats1.py 程序 。 这 个 新 版 本 使 用 了 一 个 列表 ,可 以 保存 用 户 输入 的 任意 多 
的 猫 。 在 新 的 文件 编辑 器 窗口 中 ， 输 入 以 下 代码 并 保存 为 allMyCats2.py: 


catNames = [] 


While True : 


print( "Enter the name of cat ' + str(len(catNames) + 1) + 
' (Or enter nothing to stop.):') 
name = input() 
if name == '': 
break 

catNames = CatNames + [name] # list concatenation 
print('The cat names are: ') 
for name in catNames: 


print(' 


' + name) 


运行 这 个 程序 ， 输 出 结果 看 起 来 像 下 面 这 样 : 


Enter the name of cat 1 (Or enter nothing to stop.): 
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zophie 
Enter the name of cat 2 (Or enter nothing to stop.): 


Pooka 

Enter the name of cat 3 (Or enter nothing to stop.): 
Simon 

Enter the name of cat 4 (Or enter nothing to stop.): 
Lady Macbeth 

Enter the name of cat 5 (Or enter nothing to stop.): 
Fat-tail 

Enter the name of cat 6 (Or enter nothing to stop.): 
Miss Cleo 

Enter the name of cat 7 (Or enter nothing to stop.): 


The cat names are: 
Zophie 
Pooka 
Simon 
Lady Macbeth 
Fat-tail 
Miss Cleo 


可 以 在 https://autbor.com/allmycats1/ 和 https://autbor.com/allmycats2/ 上 查看 这 些 程 序 的 执行 
情况 。 使 用 列表 的 好 处 在 于 ， 现 在 数据 放 在 一 个 结构 中 ， 因 此 程序 能 够 更 灵活 地 处 理 数据 ， 比 
放 在 一 些 重复 的 变量 中 方便 。 


4.2.1 列表 用 于 循环 


在 第 2 章 中 , 我们 学 习 了 使 用 循环 让 一 段 代 码 执行 一 定 次 数 。 从 技术 上 说 ， 循 环 是 针对 一 个 列 
表 或 列表 中 的 每 个 值 ， 重 复 地 执行 代码 块 。 例 如 ， 如 果 执 行 以 下 代码 : 


for i in range(4) : 


print(i) 
程序 的 输出 结果 将 是 : 
0 
1 
2 
3 


这 是 因为 range (4) 的 返回 值 是 类 似 列表 的 值 。Python 认为 它 类 似 于 [0，1，2，3]。( 序 
列 在 4.6 节 的 “序列 数据 类 型 ”中 介绍 。) 下 面 的 程序 和 前 面 的 程序 输出 结果 相同 : 


or 1 2 [1 2 91 
print (i) 


前 面 的 for 循环 实际 上 是 在 循环 执行 它 的 子 句 ， 在 每 次 迭代 中 ， 将 变量 i 依次 设置 为 列表 
[0，1，2，3] 中 的 值 。 

一 个 常见 的 Python 技巧 是 ， 在 for 循环 中 使 用 range (len(someList))， 伙 代 列表 的 每 
一 个 索引 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> supplies = ['pens', 'staplers', 'flame-throwers', 'binders'] 
>>> for i in range(len(supplies)): 
。 print('Index ' + str(i) + ' in supplies is: ' + supplies[i]) 


Index 0 in supplies is: pens 
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Index 1 in supplies is: staplers 
Index 2 in supplies is: flame-throwers 
Index 3 in supplies is: binders 


在 前 面 的 循环 中 使 用 range (len (supplies) ) 很 方便 , 这 是 因为 循环 中 的 代码 可 以 访问 索引 
(通过 变量 i )， 以 及 索引 处 的 值 ( 通 过 supplies[i]l)。 最 妙 的 是 ，range(len(supplies) ) 将 
迭代 supplies 的 所 有 索引 ， 无 论 它 包含 多 少 表 项 。 


4.2.2 in 和 not in 操作 符 


利用 in 和 not in 操作 符 ， 可 以 确定 一 个 值 是 否 在 列表 中 。 像 其 他 操作 符 一 样 ，in 和 not 
in 在 表达 式 中 用 于 连接 两 个 值 : 一 个 是 要 在 列表 中 查找 的 值 ， 另 一 个 是 待 查找 的 列表 。 这 些 表 
达 式 将 求 值 为 布尔 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'howdy' in ['hello', 'hi', 'howdy', 'heyas'] 
True 

>>> Spam = ['hello', 'hi', 'howdy', 'heyas'] 

>>> 'cat' in spam 


False 

>>> 'howdy' not in spam 
False 

>>> 'cat' not in spam 
True 


例如 ， 下 面 的 程序 让 用 户 输入 一 个 宠物 名 字 ， 然 后 检查 该 名 字 是 否 在 宠物 列表 中 。 打 开 一 
个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 myPets.py: 


myPets = ['Zophie', "Pooka'， 'Fat-tail' ] 
print('Enter a pet name:') 
name = input() 
if name not in myPets: 
print('I do not have a pet named ' + name) 


else: 
print(name + ' is my pet.') 
输出 结果 可 能 像 这 样 : 
Enter a pet name: 
Footfoot 


I do not have a pet named Footfoot 


可 以 在 https://autbor.com/mypets/ 上 查看 该 程序 的 执行 情况 。 


4.2.3 ”多重 赋值 技巧 


多 重 赋值 技 马 是 一 种 快捷 方式 ， 让 你 在 一 行 代码 中 ， 用 列表 中 的 值 为 多 个 变量 赋值 。 所 以 
不 必 像 下 面 这 样 : 

>>> cat = ['fat', 'black'，'1oud '] 

>>> size = cat[0] 


>>> color = cat[1] 
>>> disposition = cat[2] 
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而 是 输入 下 面 的 代码 : 


>>> cat = ['fat', 'black', 'loud'’] 
>>> size, color, disposition = cat 


变量 的 数目 和 列表 的 长 度 必须 严格 相等 ， 否 则 Python 将 给 出 ValueError 错误 : 


>>> cat = ['fat', 'black', 'loud'] 
>>> size, color, disposition, name = cat 
Traceback (most recent call last): 
File "<pyshell#84>", line 1, in <module> 
size, color, disposition, name = cat 
ValueError: need more than 3 values to unpack 


4.2.4 enumerate() 函 数 与 列表 一 起 使 用 


如 果 在 for 循环 中 不 用 range(len(someList ) ) 技 术 来 获取 列表 中 各 表 项 的 整数 索引 ， 
还 可 以 调用 enumerate() 函 数 。 在 循环 的 每 次 迭代 中 ，enumerate( ) 函数 将 返回 两 个 值 : 列 
表 中 表 项 的 索引 和 列表 中 的 表 项 本 身 。 例 如 ， 这 段 代 码 等 价 于 4.2.1 小 节 “ 列 表 用 于 循环 ”中 的 
代码 : 


>>> Supplies = ['pens', 'staplers', 'flamethrowers', 'binders'] 
>>> for index, item in enumerate(supplies): 
print('Index ' + str(index) + ' in supplies is: ' + item) 


Index 0 in supplies is: pens 
Index 1 in supplies is: staplers 
2 


Index in supplies is: flamethrowers 
Index 3 in supplies is: binders 


如 果 在 循环 块 中 同时 需要 表 项 和 表 项 的 索引 ， 那 么 enumerate ( ) 函数 很 有 用 。 
4.2.5 random.choice() 和 random.shuffle() 函 数 与 列表 一 起 使 用 


randonm 模块 有 几 个 接收 参数 列表 的 函数 。 random .choice() 函 数 将 从 列表 中 返回 一 个 随 
机 选择 的 表 项 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import random 


>>> pets = ['Dog', 'Cat', ‘Moose'] 
>>> random.choice (pets) 

‘Do 

>>> random.choice (pets) 

Cat' 

>>> random.choice(pets) 

Cat’ 


你 可 以 认为 random.choice(someList) 是 someList[random.randint(0, len(someList) 
一 1] 的 较 短 形式 。 

random.shuffle() 函 数 将 对 列表 中 的 表 项 重新 排序 。 该 函数 将 就 地 修改 列表 ， 而 不 是 返 
回 新 列表 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import random 
>>> people = ['Alice', 'Bob', ‘Carol', ‘David'] 
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>>> random.shuffle(people) 

>>> people 

['Carol’', 'David', 'Alice', "Bobr+] 
>>> random.shuffle(people) 

>>> people 

['Aiice', ‘David', 'Bob’, ‘'Carol') 


4.3 增强 的 赋值 操作 


在 对 变量 赋值 时 ， 和 常常 会 用 到 变量 本 身 。 例 如 ， 将 42 赋 给 变量 spam 之 后 ， 用 下 面 的 代码 
让 spam 的 值 增加 1: 


>>> Spam = 42 

>>> spam = spam + 1 
>>> spam 

43 


作为 一 种 快捷 方式 ， 可 以 用 增强 的 赋值 操作 符 += 来 完成 同样 的 事 : 
>>> spam = 42 

>>> spam += 1 

>>> spam 

43 


+、-、*、/ 和 % 操 作 符 都 有 增强 的 赋值 操作 符 ， 如 表 4-1 所 示 。 
表 4-1 增强 的 赋值 操作 符 


增强 的 赋值 语句 等 价 的 赋值 语句 

spam += 1 spam = spam + 1 
Spam -= 1 Spam = Spam - 1 
Spam *= 1 spam = spam * 1 
spam /= 1 spam = spam / 1 
spam %= 1 spam = spam % 1 


+= 操 作 符 可 以 完成 字符 串 和 列表 的 连接 ，*= 操 作 符 可 以 完成 字符 串 和 列表 的 复制 。 在 交互 
式 环境 中 输入 以 下 代码 : 


>>> Spam = 'Hello,' 
>>> Spam += ”Wor1ldl!， 
>>> Spanm 


‘Hello, world!’' 

>>> bacon = ['Zophie'] 

>>> bacon *= 3 

>>> bacon 

['Zophie’, 'Zophie', 'Zophie') 


4.4 方法 


“方法 ”和 函数 是 一 回 事 ， 只 是 它 在 一 个 值 上 进行 调用 。 例 如 ， 如 果 一 个 列表 值 存 储 在 spam 
变量 中 , 你 可 以 在 这 个 列表 上 调用 index () 列 表 方 法 ( 稍 后 我 会 解释 ), 就 像 spam.index('hello') 
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一 样 。 方 法 跟 在 要 调用 的 值 后 面 ， 以 一 个 圆 点 分 隔 。 
每 种 数据 类 型 都 有 它 自 己 的 一 组 方法 。 例 如 ， 列 表 数 据 类 型 有 一 些 有 用 的 方法 ， 用 来 得 找 、 
添加 、 删 除 或 修改 列表 中 的 值 。 


4.4.1 用 index() 方 法 在 列表 中 查找 值 


列表 值 有 一 个 index () 方 法 , 可 以 传 入 一 个 值 : 如 果 该 值 存 在 于 列表 中 , 就 返回 它 的 索引 ; 
如 果 该 值 不 在 列表 中 ，Python 就 报 ValueError 错误 。 在 交互 式 环境 中 输入 以 下 代码 : 

>>> Spam = ['hello'，'hi'，'howdy'， "heyas '] 

>>> spam.index('hello') 

0 

Spam.index('heyas ' ) 

>>> Spam.index('howdy howdy howdy') 

Traceback (most recent call last): 

File "<pyshell#31>", line 1, in <module> 
spam.index('howdy howdy howdy') 

ValueError: 'howdy howdy howdy' is not in list 

如 果 列 表 中 存在 重复 的 值 ， 就 返回 它 第 一 次 出 现 的 索引 。 在 交互 式 环境 中 输入 以 下 代码 ， 
注意 index() 方 法 返回 1， 而 不 是 3: 

>>> Spam = ['Zophie', 'Pooka', 'Fat-tail'， "Pooka '] 

>>> Spam,index( "Pooka ') 

1 


4.4.2 用 append() 方 法 和 insert() 方 法 在 列表 中 添加 值 


要 在 列表 中 添加 新 值 ， 就 使 用 append () 方 法 和 insert () 方 法 。 在 交互 式 环境 中 输入 以 
下 代码 ， 对 变量 spam 中 的 列表 调用 append ( ) 方 法 : 


>>> Spam = ['cat', 'dog', "bat'] 
>>> Spam.append( "moose ') 

>>> spam 

tft"'cat’,s “dog ss "bat,. Woo0se ] 


前 面 的 append() 方 法 可 将 参数 添加 到 列表 末尾 。insert() 方 法 可 以 在 列表 任意 索引 处 插 
入 一 个 值 。insert () 方 法 的 第 一 个 参数 是 新 值 的 索引 ， 第 二 个 参数 是 要 插入 的 新 值 。 在 交互 
式 环境 中 输入 以 下 代码 : 

>>> spam = ['cat', 'dog', 'bat'] 

>>> spam.insert(1, 'chicken ') 

Ras "0g "bat”) 

请 注意 ,代码 是 spam.append('moose') 和 spam.insert(1,'chicken'), 而 不 是 spam 
= spam.append('moose') 和 spam = spam.insert(1，'chicken')。append() 方 法 和 
insert() 方 法 都 不 会 将 spam 的 新 值 作为 其 返回 值 ( 实 际 上 ，append() 方 法 和 insert() 方 
法 的 返回 值 是 None， 所 以 你 表 定 不 希望 将 它 保 存 为 变量 的 新 值 )。 但 是 ， 列 表 被 “就 地 ”修改 
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了 。4.6.1 小 节 “ 可 变 和 不 可 变数 据 类 型 ”将 更 详细 地 介绍 就 地 修改 一 个 列表 。 

方法 属于 单个 数据 类 型 append() 方 法 和 insert() 方 法 是 列表 方法 , 只 能 在 列表 上 调用 ， 
不 能 在 其 他 值 上 调用 ， 例 如 字符 串 和 整 型 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 产 生 的 
AttributeError 错误 信息 : 


>>> eggs = 'hello'’ 
>>> eggs.append( 'world') 
Traceback (most recent call last): 
File "<pyshell#19>", line 1, in <module> 
eggs.append( "world ' ) 
AttributeError: 'Str' object has no _ attribute 'append'， 
>>> bacon = 42 
>>> bacon.insert(1, 'world') 
Traceback (most recent call last): 
File "<pyshell#22>", line 1, in <module> 
bacon.insert(1, 'world') 
AttributeError: 'int' object has no attribute 'insert' 


4.4.3 用 remove() 方 法 从 列表 中 删除 值 


给 remove () 方 法 传 入 一 个 值 ， 它 将 从 被 调用 的 列表 中 删除 。 在 交互 式 环境 中 输入 以 下 
代码 : 

>>> spam = ['cat', 'bat', 'rat', 'elephant'] 

>>> Spam.remove( 'bat ') 


>>> Spanm 

['cat', ‘rat', “elephant ' ] 

试图 删除 列表 中 不 存在 的 值 ， 将 导致 ValueError 错误 。 例 如 ， 在 交互 式 环境 中 输入 以 下 
代码 ， 注 意 显示 的 错误 : 

>>> Spam = [ "cat'， 'bat', 'rat', 'elephant'] 

>>> Spam.remove( "chicken ') 

Traceback (most recent call last): 

File "<pyshell#11>", line 1, in <module> 


spam.remove('chicken') 
ValueError: list.remove(x): x not in list 


如 果 该 值 在 列表 中 出 现 多 次 , 只 有 第 一 次 出 现 的 值 会 被 删除 。 在 交互 式 环境 中 输入 以 下 
代码 : 

>>> Pals [Gut Dats rat's cut’s ‘hat”, cat’] 

>>> spam.remove('cat') 

>>> Spam 

"a 

如 果 知 道 想 要 删除 的 值 在 列表 中 的 索引 ，del 语句 就 很 好 用 。 如 果 知 道 想 要 从 列表 中 删除 
的 值 ，remove( ) 方 法 就 很 好 用 。 


4.4.4 用 sort() 方 法 将 列表 中 的 值 排序 


包含 数值 的 列表 或 字符 串 的 列表 ， 能 用 sort () 方 法 排序 。 例 如 ， 在 交互 式 环境 中 输入 以 
下 代码 : 
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>>> spam = [2，5，3.14，1，-7] 

>>> Spam.sort() 

>>> spam 

[= 1 2 3.14, 5] 

>>> spam = [ants', 'cats', 'dogs', 'badgers', 'elephants'] 
>>> spam.sort() 

>>> spam 

['ants', 'badgers', 'cats', 'dogs', 'elephants'] 


也 可 以 指定 reverse 关键 字 参 数 为 True， 让 sort() 方 法 按 道 序 排序 。 在 交互 式 环境 中 
输入 以 下 代码 : 


>>> spam.sort(reverse=True) 
>>> spam 
['elephants', 'dogs', 'cats', 'badgers', 'ants'] 


关于 sort () 方 法 , 你 应 该 注意 3 件 事 。 第 一 , sort() 方 法 就 地 对 列表 排序 。 不 要 写 出 spam 
= spam.sort() 这 样 的 代码 ， 试 图 记录 返回 值 。 

第 二 ,不 能 对 既 有 数字 又 有 字符 串 值 的 列表 排序 ， 因 为 Python 不 知道 如 何 比较 它们 。 在 交 
互 式 环境 中 输入 以 下 代码 ， 注 意 TypeError 错误 : 


>>> spam = [1, 3, 2, 4, 'Alice', 'Bob'] 
>>> Spam.sort() 
Traceback (most recent call last): 
File "<pyshell#70>", line 1, in <module> 
spam.sort() 
TypeError: '<' not supported between instances of 'str’' and ‘int' 


第 三 ，sort ( ) 方 法 对 字符 串 排序 时 ， 使 用 “ASCII 字符 顺序 ”而 不 是 实际 的 字典 顺序 。 
这 意味 着 大 写字 母 排 在 小 写字 母 之 前 。 因 此 在 排序 时 ， 小 写 的 a 在 大 写 的 Z 之 后 。 例 如 ， 在 交 
互 式 环境 中 输入 以 下 代码 : 


>>> Spam = ['Alice', 'ants', 'Bob', 'badgers', 'Carol', 'cats'] 
>>> Spam.sorti[) 

>>> spam 

CRAldtecer ‘Beb’, ‘Carol’, ‘ants's :badoers' ‘cats’) 


如 果 需 要 按照 普通 的 字典 顺序 来 排序 ， 就 在 调用 sort() 方 法 时 ， 将 关键 字 参 数 key 设置 
为 str .lower: 


>>> Spam = fa’, 5 “A Re 
>>> spam.sort(key=str.lower) 


>>> spam 

有 

这 将 导致 sort () 方 法 将 列表 中 所 有 的 表 项 当成 小 写 ， 但 实际 上 并 不 会 改变 它们 在 列表 中 
的 值 。 


4.4.5 使 用 reverse() 方 法 反 转 列表 中 的 值 
如 果 要 快速 反 转 列表 中 项 目的 顺序 , 可 以 调用 reverse( ) 方 法 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> spam = ['cat', 'dog', 'moose'] 
>>> spam.reversel() 
>>> spam 
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和 pn 这 就 是 为 什么 写成 spam.reverse() 


而 不 是 spam = spam.reverse()。 


4.5 ”例子 程序 ， 神奇 8 球 和 列表 


前 一 章 我 们 写 过 神奇 8 球 程序 。 利 用 列表 ， 可 以 写 出 更 优雅 的 版 本 。 不 是 用 一 些 几 乎 一 样 
的 elif 语句 ， 而 是 创建 一 个 列表 ， 针 对 它 编 码 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代 
码 ， 并 保存 为 magic8Ball2.py: 


import random 


messages = ['It is certain '， 
'It is decidedly So ' ， 
'Yes definitely', 
'Reply hazy try again', 
'Ask again later', 
'Concentrate and ask again', 
'My reply is no', 
'Qutlook not so good', 
'Very doubtful ' ] 


print(messages[random.randint(0, len(messages) - 1)]) 


可 以 在 https://autbor.com/magic8ball2/ 上 查看 此 程序 的 执行 情况 。 
运行 这 个 程序 ， 你 会 看 到 它 与 前 面 的 magic8Ballpy 程序 效果 一 样 。 
请 注意 用 作 messages 索引 的 表达 式 : random.randint (0，len(messages) -1)。 这 
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~ 
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产生 了 一 个 随机 数 作为 索引 ， 不 论 messages 的 大 小 是 多 少 。 也 就 是 说 ， 你 会 得 到 0 与 
len(messages)-1 之 间 的 一 个 随机 数 。 这 种 方法 的 好 处 在 于 ， 很 容易 向 messages 列表 添加 
或 删除 字符 串 ， 而 不 必 改 变 其 他 行 的 代码 。 如 果 稍 后 更 新 代码 ， 就 可 以 少 改 几 行 代 码 , 引入 bug 
的 可 能 性 也 更 小 。 


4.6 序列 数据 类 型 


列表 并 不 是 唯一 表示 序列 值 的 数据 类 型 。 例 如 , 如 果 你 将 字符 串 考虑 为 单个 文本 字符 的 “ 列 
表 风 那么 字符 串 和 列表 实际 上 是 相似 的 。Python 序列 数据 类 型 包括 列表 、 字 符 串 、 由 range() 
返回 的 范围 对 象 ， 以 及 元 组 (在 4.6.2 小 节 “ 元 组 数据 类 型 ”中 解释 )。 对 列表 的 许多 操作 ， 也 
可 以 作用 于 字符 串 和 序列 类 型 的 其 他 值 : 按 索引 取 值 、 切 片 、 用 于 for 循环 、 用 于 len() 函数 ， 
以 及 用 于 in 和 not in 操作 符 。 为 了 看 到 这 种 效果 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> name = 'Zophie' 
>>> name[0] 


>>> name[-2] 
人 


>>> name[0:4] 


'Zoph' 

>>> 'Z0' in name 
True 

>>> 'z' in name 
False 


>>> 'p' not in name 

False 

>>> for i in name: 
区 


4.6.1 可 变 和 不 可 变数 据 类 型 
列表 和 字符 串 在 一 个 重要 的 方面 是 不 同 的 。 列 表 是 “可 变 的 ”数据 类 型 ， 它 的 值 可 以 添 


加 、 删 除 或 改变 。 但 是 ， 字 符 串 是 “不 可 变 的 ”数据 类 型 ， 它 不 能 被 更 改 。 尝 试 对 字符 串 中 
的 一 个 字符 重新 赋值 ， 将 导致 TypeError 错误 。 在 交互 式 环境 中 输入 以 下 代码 ， 你 就 会 看 到 
这 个 错误 : 

>>> name = ‘Zophie a cat' 

>>> name[7] = 'the' 

Traceback (most recent call last): 

File "<pyshell#50>", line 1, in <module> 
name[7]j = 'the' 
TypeError: “Str' object does not Support item assignment 


“改变 ”一 个 字符 串 的 正确 方式 ， 是 使 用 切片 和 连接 构造 一 个 “新 的 ”字符 串 ， 从 老 的 字符 
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捉 那 里 复制 一 部 分 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> name = 'Zophie a cat' 

>>> newName = name[0:7] + “the' + name[8:12] 
>>> name 

‘Zophie a cat' 

>>> newName 

‘Zophie the cat' 


我 们 用 [0:7] 和 [8:12] 来 指定 那些 不 想 替 换 的 字符 。 请 注意 ， 原 来 的 'Zophie a cat， 站 
字符 串 没 有 被 修改 ， 因 为 字符 串 是 不 可 变 的 。 
尽管 列表 值 是 可 变 的 ， 但 下 面 代码 中 的 第 二 行 并 没有 修改 列表 eggs: 


>>> eggs = [1，2，3] 
>>> eggs = [4, 5, 6] 
>>> eggs 
[4，5，6] 


这 里 eggs 中 的 列表 值 并 没有 改变 ， 而 是 整个 新 的 不 同 的 列表 值 ([4，5，61]) 覆 写 了 老 的 
列表 值 ， 如 图 4-2 所 示 。 


图 4-2 当 eggs = [4，5，6] 被 执行 时 ，eggs 的 内 容 被 新 的 列表 值 取代 
如 果 你 确实 希望 修改 eggs 中 原来 的 列表 ， 让 它 包 含 [(4，5，6]， 就 要 这 样 做 : 


>>> eggs = [1，2，3] 
>>> del eggs[2] 

>>> del eggs[1] 

>>> del eggs[0] 

>>> eggs .append(4) 
>>> eggs .append(5) 
>>> eggs ,append(6) 
>>> eggs 

[4，5，6] 


这 种 情况 下 ，eggs 最 后 的 列表 值 与 它 开 始 的 列表 值 是 一 样 的 。 只 是 这 个 列表 被 改变 了 ， 
而 不 是 被 覆 写 了 。 图 4-3 所 示 为 上 面 交 互 式 脚本 的 例子 中 ， 前 7 行 代码 所 做 的 7 次 改动 。 

改变 一 个 可 变数 据 类 型 的 值 (就 像 前 面 例子 中 del 语句 和 append () 方 法 所 做 的 事 )， 就 地 
改变 了 该 值 ， 因 为 该 变量 的 值 没 有 被 一 个 新 的 列表 值 取 代 。 

区 分 可 变 与 不 可 变 类 型 ,似乎 没有 什么 意义 , 但 4.7.2 小 节 “ 传 递 引 用 ”将 解释 使 用 可 变 参 
数 和 不 可 变 参 数 调用 函数 时 产生 的 不 同行 为 。 首 先 ， 让 我 们 来 看 看 元 组 数据 类 型 ， 它 是 列表 数 
据 类 型 的 不 可 变形 式 。 
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图 4-3” ”del 语句 和 append() 方 法 就 地 修改 了 同一 个 列表 值 
4.6.2 ”元 组 数据 类 型 


除了 两 个 方面 ,“ 元 组 ”数据 类 型 几乎 与 列表 数据 类 型 一 样 。 一 方面 是 元 组 输入 时 用 圆 括号 
()， 而 不 是 用 方 括号 []。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> eggs = ('hello', 42, 0.5) 
>>> eggs[0] 

‘hello' 

>>> eggs[1:3] 

(42, 0.5) 

>>> len(eggs) 

3 


元 组 与 列表 的 另 一 个 主要 区 别 在 于 ， 元 组 像 字符 串 一 样 ， 是 不 可 变 的 。 元 组 不 能 让 它们 的 
值 被 修改 、 添 加 或 删除 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 TypeError 错误 信息 : 
>>> eggs = ('hello', 42, 0.5) 
>>> eggs[1] = 99 
Traceback (most recent call last): 
File "<pyshell#5>", line 1, in <module> 

eggs[1] = 99 

TypeError: “'tu5le' object does not support item assignment 


如 果 元 组 中 只 有 一 个 值 ， 你 可 以 在 括号 内 该 值 的 后 面 跟 上 一 个 逗号 ， 表 明 这 种 情况 ,否则 ， 
Python 将 认为 你 只 是 在 一 个 普通 括号 内 输入 了 一 个 值 。 逗 号 告诉 Python， 这 是 一 个 元 组 〈 不 像 
其 他 编程 语言 ，Python 接收 列表 或 元 组 中 最 后 一 项 后 面 跟 的 逗号 )。 在 交互 式 环境 中 ， 输 入 以 
下 的 type() 国 数 调 用 ， 看 看 它们 的 区 别 : 


>>> type(('hello',)) 
<class 'tuple'> 

>>> type(('hello')) 
<class 'str'> 


尔 可 以 用 元 组 告诉 所 有 读 代码 的 人 ， 你 不 打算 改变 这 个 序列 的 值 。 如 果 和 需要 一 个 永远 不 会 
改变 值 的 序列 ， 就 使 用 元 组 。 使 用 元 组 而 不 是 列表 的 第 二 个 好 处 在 于 ， 因 为 它们 是 不 可 变 的 ， 
它们 的 内 容 不 会 变化 ， 所 以 Python 可 以 实现 一 些 优 化 ， 让 使 用 元 组 的 代码 的 运行 速度 比 使 用 列 
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表 的 代码 更 快 。 


4.6.3 用 list(0) 和 tuple() 函 数 来 转换 类 型 


正如 str(42) 将 返回 '42'， 即 整数 42 的 字符 串 表示 形式 ， 函 数 1ist() 和 tuple() 将 返 
回 传递 给 它们 的 值 的 列表 和 元 组 形式 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 返 回 值 与 传 入 值 是 
不 同 的 数据 类 型 

>>> tuple(['cat', 'dog', 5]) 

("cout "do0”, 全 

>>> list(('cat', 'dog', 5)) 

I"eat "000 ,5} 

>>> list('hello') 

D0 


如 果 需 要 元 组 值 的 一 个 可 变 版 本 ， 将 元 组 转换 成 列表 就 很 方便 。 
4.7 引用 


正如 你 看 到 的 ， 变量 “保存 ”字符 串 和 整数 值 。 但 是 ， 这 种 解释 只 是 简化 了 Python 的 实际 
操作 。 从 技术 上 讲 ， 变 量 存储 的 是 对 计算 机 内 存 位 置 的 引用 ， 这 些 位 置 存储 了 这 些 值 。 在 交互 
式 环境 中 输入 以 下 代码 : 


>>> Spam = 42 

>>> cheese = Spam 
>>> Spam = 100 
>>> spam 

100 

>>> Cheese 

42 


将 42 赋 给 spam 变量 时 ， 实 际 上 是 在 计算 机 内 存 中 创建 值 42， 并 将 对 它 的 “引用 ”存储 
在 spam 变量 中 。 当 你 复制 spam 变量 中 的 值 ， 并 将 它 赋 给 cheese 变量 时 ， 实 际 上 是 在 复制 引 
用 。spam 和 cheese 变量 均 指 向 计算 机 内 存 中 的 值 42。 稍 后 将 spam 变量 中 的 值 更 改 为 100 时 ， 
你 创建 了 一 个 新 的 值 100， 并 将 它 的 引用 存储 在 spam 变量 中 。 这 不 会 影响 cheese 变量 的 值 。 整 
数 是 “不 变 的 ” 值 ， 它 们 不 会 改变 ， 更 改 spam 变量 实际 上 是 让 它 引 用 内 存 中 一 个 完全 不 同 的 值 。 

但 列表 不 是 这 样 的 ， 因为 列表 值 可 以 改变 。 也 就 是 说 , 列表 是 “可 变 的 ”。 这 里 有 一 些 代 码 ， 
让 这 种 区 别 更 容易 理解 。 在 交互 式 环境 中 输入 以 下 代码 : 


@ >>> spam = [0, 1, 2, 3, 4, 5] 
@ >>> cheese = spam 
© >>> cheese[1] = 'Hello!' 

>>> spam 

10 Hellolt" Rs 9 4 3 

>>> cheese 

[0 “Hellol’s 2 3 4, 5] 


这 可 能 让 你 感到 奇怪 。 代 码 只 改变 了 cheese 列表 ， 但 似乎 cheese 和 spam 列表 同时 发 
生 了 改变 。 
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当 创 建 列表 时 @， 你 将 对 它 的 引用 赋 给 了 变量 spam。 但 下 一 行 @ 只 是 将 spam 变量 中 的 列 
表 引 用 复制 到 cheese 变量 ， 而 不 是 列表 值 本 身 。 这 意味 着 存储 在 spam 和 cheese 变量 中 的 
值 ， 现 在 指向 了 同一 个 列表 。 底 下 只 有 一 个 列表 ， 因 为 列表 本 身 实际 从 未 复制 。 所 以 当 你 修改 
cheese 变量 的 第 一 个 元 素 时 @， 也 修改 了 spam 变量 指向 的 同一 个 列表 。 

记 住 ， 变 量 就 像 包 含 着 值 的 盒子 。 本 章 前 面 的 图 
显示 列表 在 盒子 中 ， 这 并 不 准确 ， 因 为 列表 变量 实际 
上 没有 包含 列表 ， 而 是 包含 对 列表 的 “引用 ”( 这 些 引 
用 包含 一 些 ID 数字 ，Python 在 内 部 使 用 这 些 ID， 但 
是 你 可 以 忽略 )。 利 用 盒子 作为 变量 的 隐喻 ， 图 4-4 所 
示 为 列表 被 赋 给 spam 变量 时 的 情形 。 

然后 , 图 4-5 所 示 的 spam 变量 中 的 引用 被 复制 给 : 
cheese 变量 。 只 有 新 的 引用 被 创建 并 保存 在 cheese Pr 
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变量 中 ， 而 非 新 的 列表 。 请 注意 ， 两 个 引用 都 指 癌 同 保存 了 对 列表 的 引用 ， 而 非 实际 列表 
一 个 列表 。 

当 你 改变 cheese 变量 指向 的 列表 时 ，spam 变量 指向 的 列表 也 发 生 了 改变 ， 因 为 cheese 
变量 和 spam 变量 都 指向 同一 个 列表 ， 如 图 4-6 所 示 。 
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图 4-5 cheese =spam 复制 了 7 引用， 而 非 列表 ”图 4-6 cheese[1] = 'Hello!' 修 改 了 两 个 变量 指向 的 列表 
虽然 Python 变量 在 技术 上 包含 的 是 对 值 的 引用 ， 但 人们 通常 说 ， 访 变量 包含 了 该 值 。 


4.7.1 标识 和 id() 函 数 


你 可 能 想 知 道 ， 为 什么 上 一 节 中 的 可 变 列 表 的 奇怪 行为 不 会 发 生 在 整数 或 字符 串 之 类 的 不 
可 变 值 上 。 我 们 可 以 利用 Python 的 id() 了 尔 数 来 理解 这 一 点 。Python 中 的 所 有 值 都 有 一 个 唯一 
的 标识 ， 可 以 通过 id( ) 函数 获得 该 标识 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> id('Howdy') # The returned number will be different on your machine. 
44491136 


当 Python 运行 id( 'Howdy ' ) 时 ， 它 将 在 计算 机 的 内 存 中 创建 'Howdy ' 了 字符 串 。id() 函数 
返回 存储 字符 串 的 数字 内 存 地 址 。Python 根据 当时 计算 机 上 空闲 的 内 存 字 节 来 选择 此 地 址 ， 因 
此 每 次 运行 此 代码 时 ， 内 存 字 节 部 会 有 所 不 同 。 
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像 所 有 字符 串 一 样 ，'Howdy ' 是 不 可 变 的 ， 无 法 更 改 。 如 果 “ 更 改 ” 变 量 中 的 字符 串 ， 就 
会 在 内 存 中 的 其 他 位 置 创建 新 的 字符 串 对 象 ， 并 且 该 变量 引用 这 个 新 字符 串 。 例 如 ， 在 交互 式 
环境 输入 以 下 代码 ， 并 查看 bacon 引用 的 字符 串 的 标识 如 何 更 改 : 


>>> bacon = ‘Hello' 

>>> id(bacon) 

44491136 

>>> bacon += ” world!' # A new string is made from 'Hello' and “* world!'. y 
>>> id(bacon) # bacon now refers to a completely different string. 

44609712 < 


可 以 修改 列表 ， 因 为 它们 是 可 变 对 象 。append ( ) 方 法 不 会 创建 新 的 列表 对 象 ， 它 更 改 现 
有 的 列表 对 象 ， 我 们 称 之 为 “就 地 修改 对 象 ”: 


>>> eggs = ['cat', 'dog'] # This creates a new list. 
>>> id(eggs) 
35152584 


>>> eggs .append( 'moose') # append() modifies the list "in place". 

>>> id(eggs) # eggs still refers to the Same list as before . 

35152584 

>>> eggs = ['bat', 'rat', 'cow'] # This creates a new list, which has a new identity . 
>>> id(eggs) # eggs now refers to a completely different list. 

44409800 


如 果 两 个 变量 引用 同一 列表 (如 上 一 节 中 的 spam 和 cheese 变量 )， 并 且 列 表 值 本 身 发 生 
了 变化 , 那么 这 两 个 变量 都 会 受到 影响 .append()、extend()、remove()、sort()、reverse() 
和 其 他 列表 方法 会 就 地 修改 其 列表 。 

Python 的 “ 目 动 垃圾 收集 器 ”会 删除 任何 变量 未 引用 的 值 ， 以 释放 内 存 。 你 无 须 了 解 垃圾 
收集 器 如 何 工 作 ， 这 是 一 件 好 事 : 其 他 编程 语言 中 的 手动 内 存 管理 是 常见 的 错误 来 源 。 


4.7.2 传递 引用 


要 理解 参数 如 何 传递 给 函数 ， 引 用 就 特别 重要 。 当 函数 被 调用 时 ， 参 数 的 值 被 复制 给 变 元 。 
对 于 列表 (以 及 字典 ,我 将 在 下 一 章 中 讨论 )， 这 意味 看 变 元 得 到 的 是 引用 的 复制 。 要 了 解 这 导 
致 的 后 果 ， 请 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 passingReference.py: 


def eggs(someParameter): 
someParameter.append('Hello') 


spam = [1, 2，3] 

eggs (spam) 

print (spam) 

请 注意 ， 当 eggs () 函数 被 调用 时 ， 没 有 使 用 返回 值 来 为 spam 变量 赋 新 值 。 相 反 ， 它 直接 
就 地 修改 了 该 列表 。 在 运行 时 ， 该 程序 产生 的 输出 结果 如 下 : 

th 2 "elie"] 

尽管 spam 和 someParameter 变量 包含 了 不 同 的 引用 ， 但 它们 都 指向 相同 的 列表 。 这 就 
是 为 什么 函数 内 的 append( 'Hel1o' ) 方 法 调用 在 函数 调用 返回 后 , 仍然 会 对 该 列表 产生 影响 。 

请 记 住 这 种 行为 : 如 果 在 Python 处 理 列表 和 字典 变量 时 采用 这 种 方式 ， 可 能 会 导致 令 人 困 
惑 的 bug。 
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4.7.3 “copy 模块 的 copy() 和 deepcopy() 函 数 


在 处 理 列表 和 字典 时 ， 尽 管 传递 引用 常常 是 最 方便 的 方法 ， 但 如 果 函 数 修改 了 传 入 的 列表 
或 字典 , 你 可 能 不 希望 这 些 变动 影响 原来 的 列表 或 字典 。 要 做 到 这 一 点 , Python 提供 了 名 为 copy 
的 模块 ， 其 中 包含 copy() 和 deepcopy() 函 数 。copy.copy() 函 数 可 以 用 来 复制 列表 或 字典 
这 样 的 可 变 值 ， 而 不 只 是 复制 引用 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import copy 

>>> Spam = ['A’, 'B', 'C', 'D'] 
>>> id(spam) 

44684232 

>>> Cheese = copy.copy(spam) 
>>> id(cheese) # cheese is a different list with different identity. 
44685832 

>>> cheese[1] = 42 

>>> spam 

[LA's Bs “6s DD] 

>>> cheese 

['A', 42, 'C', 'D'] 


现在 spam 和 cheese 变量 指向 独立 的 列表 ， 这 就 是 为 什么 当 你 将 42 赋 给 索引 7 时， 只 有 
cheese 变量 中 的 列表 被 改变 。 两 个 变量 的 引用 ID 数字 不 再 一 样 , 因为 它们 指向 了 独立 的 列表 ， 
如 图 4-7 所 示 。 
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图 4-7 cheese = copy .copy(spam) 创 建 了 第 二 个 列表 ， 能 独立 于 第 一 个 列表 修改 


如 果 要 复制 的 列表 中 包含 了 列表 , 那 就 使 用 copy .deepcopy ( ) 函 数 来 代替 。 deepcopy() 
图 数 将 同时 复制 它们 内 部 的 列表 。 


4.8 小 程序 :Conway 的 生命 游戏 


Conway 的 “生命 游戏 ”是 细胞 自动 机 的 一 个 例子 : 一 组 规则 控制 由 离散 细胞 组 成 的 区 域 
的 行为 。 在 实践 中 ， 它 会 创建 一 个 漂亮 的 动画 以 供 观看 。 你 可 以 用 方块 作为 细胞 在 方 格 纸 上 绘 
制 每 个 步骤 。 实 心 方块 是 “ 活 的 ” 空心 方块 是 “ 死 的 >”。 如 果 一 个 活 的 方块 与 两 个 或 3 个 活 的 
方块 为 邻 ， 它 在 下 一 步 将 还 是 活 的 。 如 果 一 个 死 的 方块 正好 有 3 个 活 的 邻居 ， 那 么 下 一 步 它 就 
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会 是 活 的 。 所 有 其 他 方块 在 下 一 步 都 会 死亡 或 保持 死亡 。 图 4-8 所 示 为 几 个 步骤 进展 的 示例 。 


ABG DF A A Bt ABCGCDEF 


和 


图 4-8 ”Conway 的 “生命 游戏 ”模拟 中 的 4 步 


尽管 规则 很 简单 ， 但 还 是 出 现 了 许多 令 人 惊讶 的 行为 。Conway 的 “生命 游戏 ”中 的 模式 可 以 
移动 、 上 自我 复制 甚至 模仿 CPU。 但 是 ， 所 有 这 些 复杂 、 高 级 行为 的 基础 ， 是 一 个 相当 简单 的 程序 。 

我 们 可 以 用 列表 的 列表 来 表示 二 维 的 空间 。 内 部 列表 表示 方块 的 每 一 列 ， 对 于 活 的 方块 ， 
存储 一 个 类 字符 串 ; 对 于 死 的 方块 ， 存 储 一 个 '' 空 格 字 符 串 。 在 文件 编辑 器 中 输入 以 下 源 代码 ， 
并 将 文件 另存 为 conway.py。 如 果 你 不 太 理 解 所 有 代码 的 工作 原理 ， 也 没 问题 ， 只 需 输 入 它 ， 
然后 按照 这 里 提供 的 注释 和 说 明 进 行 操作 即 可 : 


# Conway's Game of Life 
import random, time, copy 
WIDTH = 60 

HEIGHT = 20 


Cn 人 ohNh 一 
Be 
TE 


# Create a list of list for the cells: 
nextCells = [] 
for x in range (WIDTH): 
column = [] # Create a new column. 
for y in range(HEIGHT) : 
if random.randint(0, 1) == 
column.append('#') # Add a living cell. 
else: 
column.append(' ') # Add a dead cell. 
nextCells.append(column) # nextCells is a list of column lists. 


While True: # Main program loop. 
print('\n\n\n\n\n') # Separate each step with newlines. 
currentCells = copy.deepcopy (nextCells) 
# Print currentCells on the screen: 
for y in range (HEIGHT): 
for x in range (WIDTH): 
print(currentCells[x]{[y], end='') # Print the # or Space. 
print() # Print a newline at the end of the row. 


# Calculate the next step's cells based on current step's cells: 
for x in range (WIDTH): 
for y in range(HEIGHT): 
# Get neighboring coordinates: 


# '% WIDTH' ensures leftCoord is always between 0 and WIDTH - 1 
leftCoord = (x - 1) % WIDTH 
rightCoord = (x + 1) % WIDTH 
aboveCoord = (y - 1) % HEIGHT 
belowCoord = (y + 1) % HEIGHT 


# Count number of living neighbors: 
numNeighbors = 0 
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二 CU ORVORLLS LL0 tooordl OO == "人 
numNeighbors += 1 # Top-left neighbor is alive. 


if currentCells[x]j[aboveCoord] == '#': 
numNeighbors += 1 # Top neighbor is alive. 
if currentCells[rightCoord][aboveCoord] == - 
numNeighbors += 1 # Top-right neighbor is alive. 
if currentCells[leftCoord][y] == '#": 
numNeighbors += 1 # Left neighbor is alive. 
if currantCells[rightCoord][y] == '#': 
numNeighbors += 1 # Right neighbor is alive. 
if currentCells[leftCoord][belowCoord] == 成 
numNeighbors += 1 # Bottom-left neighbor is alive. 
if cuyurrentCells[x][belowCoord] == '#': 
numNeighbors += 1 # Bottom neighbor is alive. 
if currentCells[rightCoord] [belowCoord] == 办 
numNeighbors += 1 # Bottom-right neighbor is alive. 


# Set cell based on Conway'S Game of Life rules: 


if currentCells[x][y] == '#' and (numNeighbors == 2 or numNeighbors == 3) : 
# Living cells with 2 or 3 neighbors stay alive: 
nextCells[x]j[y] = '#" 

elif currentCells[x][y] == ' 'and numNeighbors == 
# Dead cells with 3 neighbors become alive: 
nextCells[xl[y] = '#' 

else: 
# Everything else dies or stays dead: 
nextCells[x][y] = 


time.sleep(1) # Add a 1-second pause to reduce flickering. 


让 我 们 从 头 开始 逐 行 查看 这 段 代码 。 


# Conway's Game of Life 
import random, time, copy 
WIDTH = 60 

HEIGHT = 20 


首先 ， 我 们 导入 包含 所 需 函 数 的 模块 ， 所 需 困 数 为 random.randint()、time.sleep() 
和 copy.deepcopy() 国 数 。 


# Create a list of list for the cells: 
nextCells = [] 
for x in range (WIDTH): 
column = [] # Create a new column. 
for y in range(HEIGHT): 
if random.randint(0, 1) == 
column.append('#') # Add a living cell. 
else: 
column.append(' ') # Add a dead cell. 
nextCells.append(column) # nextCells is a list of column lists. 


细胞 自动 机 的 第 一 步 是 完全 随机 的 。 我 们 需要 创建 一 个 列表 的 列表 数据 结构 ， 来 存储 代表 
活 细 胞 和 死 细 胞 的 '#' 和 '' 字 符 串 ， 它 们 在 列表 的 列表 中 的 位 置 反映 了 它们 在 屏幕 上 的 位 置 。 
每 个 内 部 列表 代表 一 列 细胞 。random.randint(0，1) 调 用 为 细胞 的 活 与 死 分 别提 供 了 平均 
50 次 的 机 会 。 

我 们 将 列表 的 列表 放 在 一 个 名 为 nextCells 的 变量 中 ， 因 为 在 主 程序 循环 中 的 第 一 步 是 将 
nextCells 复制 到 currentCells 中 。 对 于 我 们 的 列表 数据 结构 列表 ，x 坐标 从 左 侧 的 0 开始 ， 
向 右 增 加 ; 而 yy 坐标 从 顶部 的 0 开始， 向 下 增加 。 因 此 ，nextcells[0][0] 将 代表 屏幕 左上 方 的 
细胞 ， 而 nextCells[1][0] 则 代表 该 细胞 右 侧 的 细胞 ，nextCells[0][1] 代 表 其 下 方 的 细胞 。 
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while True: # Main program loop. 
print('\n\n\n\n\n') # Separate each step with newlines. 
currentCells = copy.deepcopy (nextCells) 


主 程序 循环 的 每 次 迭代 就 是 细胞 自动 机 的 一 步 。 在 每 一 步 中 ， 我 们 都 将 nextCcells 复制 
到 currentCells， 在 屏幕 上 输出 currentCells， 然后 利用 currentCells 中 的 细胞 来 计 
算 nextCells 中 的 细胞 。 


# Print currentCells on the screen: 
for y in range(HEIGHT) : 
for x in range(WIDTH) : 
print(currentCells[x][y], end='') # Print the # or Space. 
print() # Print a newline at the end of the row. 


这 些 髓 套 的 for 循环 可 确保 我 们 在 屏幕 上 输出 整 行 细胞 ， 然 后 在 该 行 的 末尾 添加 换行 符 。 
我 们 对 nextCells 中 的 每 一 行 重复 这 个 操作 。 


# Calculate the next step's cells based on current step's cells: 
for x in range (WIDTH): 
for y in range(HEIGHT) : 
# Get neighboring coordinates : 


# “各 WIDTH' ensures leftCoord is always between 0 and WIDTH - 1 
leftCoord = (x - 1) % WIDTH 

rightCoord = (x + 1) % WIDTH 

aboveCoord = (y - 1) % HEIGHT 

belowCoord = (y + 1) % HEIGHT 


接 下 来 ， 我 们 要 用 两 个 嵌 套 的 for 循环 来 计算 下 一 步 的 每 个 细胞 。 细 胞 的 生死 状态 取决 于 


邻居 ， 因 此 我 们 首先 计算 当前 x 和 y 坐标 在 左 、 右 、 上 、 下 的 细胞 索引 。 

% 取 模 运 算 符 实现 了 “环绕 ”。 最 左边 的 0 列 中 的 细胞 ， 左 邻居 是 0-1， 即 -1。 要 将 它 环绕 到 最 
右边 一 列 的 索引 59 上 ， 我 们 计算 (0 - 1) % WIDTH。 由 于 WIDTH 为 60， 因 此 该 表达 式 的 计算 结 
果 为 59。 这 种 取 模 环绕 的 技术 也 适用 于 右边 、 上 边 和 下 边 的 邻居 。 


# Count number of living neighbors: 
numNeighbors = 0 


if currentCells[leftCoord][aboveCoord] == 人 2- 
numNeighbors += 1 # Top-left neighbor is alive. 

if currentCells[x]j[aboveCoord] == '#': 
numNeighbors += 1 # Top neighbor is alive. 

if currentCells[rightCoord] [aboveCoord] = 一 A 
numNeighbors += 1 # Top-right neighbor is alive. 

if currentCells[leftCoord][y] == '#': 
numNeighbors += 1 # Left neighbor is alive. 

if currentCells[rightCoord][y] == '#"': 
numNeighbors += 1 # Right neighbor is alive. 

if currentCells[leftCoord][belowCoord] == “ 
numNeighbors += 1 # Bottom-left neighbor is alive. 

if currentCells[x]j[belowCoord] == '#': 
numNeighbors += 1 # Bottom neighbor is alive. 

if currentCells[rightCoord][belowCcoord ] = 2 


numNeighbors += 1 # Bottom-right neighbor is alive. 


为 了 确定 nextCells[x][y] 上 的 细胞 是 存活 还 是 死亡 ,我 们 需要 计算 currentCells[x][y] 


拥有 的 活 邻 居 的 数量 。 这 一 系列 的 if 语句 检查 该 细胞 的 8 个 邻居 中 的 每 个 邻居 ， 对 于 每 个 活 
邻居 ， 向 numNeighbors 加 1。 
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# Set cell based on Conway'S Game of Life rules: 

if currentCells[x][y] == '#' and (numNeighbors == 2 or numNeighbors == 3): 
# Living cells with 2 or 3 neighbors stay alive: 
nextCcells[x][y] = 由 寺 

elif currentCells[x][y] == ' 'and numNeighbors == 3: 
# Dead cells with 3 neighbors become alive: 
nextCells[x][y] = '#' 

else: 
# Everything else dies or stays dead: 
nextCells[x]j[y] = “ 

time.sleep(1) # Add a 1-second pause to reduce flickering. 


既然 知道 了 _ currentCcells[x][y] 处 细胞 的 活 邻 居 数 ， 我 们 可 以 将 nextCells[x][y] 
设置 为 '# ' 或 ' '。 在 遍历 所 有 可 能 的 x 和 ”坐标 之 后 ， 该 程序 将 通过 调用 time.sleep(1) 
暂停 1 秒 。 然 后 ， 程 序 执行 返回 到 主 程序 循环 的 开始 处 ， 以 继续 下 一 步 。 

人 们 已 经 发 现 了 几 种 模式 ， 例 如 “滑翔 机 “螺旋桨 ”和 “重量 级 飞船 >。 滑 翔 机 模式 每 4 步 实 
现 一 次 朝 对 角 线 方向 的 “移动 ”你 可 以 创建 一 个 滑翔 机 ， 只 要 将 conway.py 程序 中 的 以 下 行 : 


if random.randint(0, 1) == 0: 
玲 换 为 : 
if (x, y) in ((1, 0), (2, 1), (0, 2), (1, 2), (2,， 2)): 


通过 搜索 网 络 ， 你 可 以 找到 关于 用 Conway 生命 游戏 生成 的 有 趣 模式 的 更 多 信息 。 你 可 以 
在 GitHub 的 asweigart 下 的 Python stdioGames 上 找到 其 他 简短 的 、 基 于 文本 的 Python 程序 , 像 
这 个 程序 一 样 。 


4.9 小结 


列表 是 有 用 的 数据 类 型 ， 因 为 它们 可 让 你 仅 用 一 个 变量 来 处 理 一 组 可 以 修改 的 值 。 在 本 书 
后 面 的 章节 中 ， 你 会 看 到 一 些 程序 利用 列表 来 完成 工作 。 没 有 列表 ， 这 些 工作 很 困难 ， 甚 至 不 
可 能 完 

列表 是 可 变 的 序列 数据 类 型 ， 这 意味 着 它们 的 内 容 可 以 改变 。 元 组 和 字符 串 虽 然 也 是 序列 
数据 类 型 ， 在 某 些 方面 类 似 列 表 ， 却 是 不 可 变 的 ， 不 能 被 修改 。 包 含 一 个 元 组 或 字符 串 的 变量 ， 
可 以 被 一 个 新 的 元 组 或 字符 串 覆 写 ， 但 这 和 就 地 修改 原来 的 值 不 是 一 回 事 ， 不 像 append ( ) 和 
remove () 方 法 在 列表 上 的 效果 。 

变量 不 直接 保存 列表 值 ， 而 是 保存 对 列表 的 “引用 ”。 在 复制 变量 或 将 列表 作为 函数 调用 的 
参数 时 ， 这 一 点 很 重要 。 因 为 被 复制 的 只 是 列表 引用 ， 所 以 要 注意 ， 对 该 列表 的 所 有 改动 都 可 
能 影响 到 程序 中 的 其 他 变量 。 如 果 需 要 修改 一 个 变量 中 的 列表 ， 同 时 不 修改 原来 的 列表 ， 就 可 
以 用 copy() 或 deepcopy( ) 函数 。 


4.10 习 定 


1. 什么 是 []? 
2. 如 何 将 'hello' 赋 给 列表 的 第 三 个 值 ， 而 让 列表 保存 在 名 为 spam 的 变量 中 ? (假定 变 


量 包含 [2，4，6，8，101].。) 
对 接 下 来 的 3 个 问题 ， 假 定 spam 变量 包含 列表 ['a'，'b'，'c'，'d']。 
3. spam[int('3' * 2) / 11] 求 值 为 多 少 ? 
. 4. spam[ -1] 求 值 为 多 少 ? 
5. spam[ :2] 求 值 为 多 少 ? 
对 接 下 来 的 3 个 问题 。 假 定 bacon 变量 包含 列表 [3.14，'cat'，11，， 


cat ，True] 。 
6. bacon.index('cat') 求 值 为 多 少 ? 


7. bacon .append(99) 让 bacon 变量 中 的 列表 值 变 成 什么 样 ? 

8. bacon.remove('cat') 让 bacon 变量 中 的 列表 值 变 成 什么 样 ? 

9. 连接 和 复制 列表 的 操作 符 是 什么 ? 

10. append() 和 insert() 列 表 方 法 之 间 的 区 别 是 什么 ? 

11. 从 列表 中 删除 值 有 哪 两 种 方法 ? 

12. 请 说 出 列表 值 和 字符 串 的 几 点 相似 之 处 。 

13. 列表 和 元 组 之 间 的 区 别 是 什么 ? 

14. 如 果 元 组 中 只 有 一 个 整数 值 42， 如 何 输入 该 元 组 ? 

15. 如 何 从 列表 值得 到 元 组 形式 ? 如 何 从 元 组 值得 到 列表 形式 ? 

16.“ 包 含 ” 列 表 的 变量 ， 实 际 上 并 未 直接 包含 列表 。 它 们 包含 的 是 什么 ? 
17. copy .copy() 函 数 和 copy .deepcopy() 函 数 之 间 的 区 别 是 什么 ? 


4.11 ”实践 项 目 

作为 实践 ， 编 程 完成 下 列 任务 。 
4.11.1 逗号 代码 

假定 有 下 面 这 样 的 列表 : 


spam = ['apples'， "bananas' ，'tofu'， 'cats'] 


编写 一 个 函数 ， 它 以 一 个 列表 值 作为 参数 ， 返 回 一 个 字符 串 。 该 字符 串 包 含 所 有 表 项 ， 表 项 之 
间 以 逗号 和 空格 分 隔 ， 并 在 最 后 一 个 表 项 之 前 插入 and。 例 如 ， 将 前 面 的 spam 列表 传递 给 函数 ， 
将 返回 'apples，bananas, tofu，and cats'， 但 你 的 函数 应 该 能 够 处 理 传递 给 它 的 任何 列表 。 


4.11.2 ” 掷 硬 币 的 连 胜 


在 本 练习 中 ， 我 们 将 稀 试 做 一 个 实验 。 如 果 你 掷 硬币 100 次 ， 并 在 每 次 正面 时 写 下 “H?” 
在 每 次 反面 时 写 下 “T”， 就 会 创建 一 个 看 起 来 像 人 TTTTTH HH HTT” 这 样 的 列表 。 如 果 
你 要 求 一 个 人 进行 100 次 随机 掷 硬 币 ， 你 可 能 会 得 到 交替 正 反 的 结果 ， 例 如 “HTHTHHTH 
TTT”, (对 人 类 而 言 ) 这 看 起 来 是 随机 的 ， 但 在 数学 上 并 不 是 随机 的 。 即 使 极 有 可 能 发 生 在 真 
正 随机 的 硬币 翻转 中 ， 人 类 也 几乎 永远 不 会 写 下 连续 6 个 正面 或 6 个 反面 。 可 以 预见 ， 人 类 在 
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随机 性 方面 会 很 糟糕 。 

编写 一 个 程序 , 查找 随机 生成 的 正面 和 反面 列表 中 出 现 连续 6 个 正面 或 6 个 反面 的 频率 。 你 的 
程序 将 实验 分 为 两 部 分 : 第 一 部 分 生成 随机 选择 的 “正面 ”和 “反面 ” 值 的 列表 ， 第 二 部 分 检查 其 
中 是 否 有 连 胜 。 将 所 有 这 些 代码 放 入 一 个 循环 中 ， 重 复 该 实验 10 000 次 ， 这 样 我 们 就 可 以 找 出 迫 
硬币 中 包含 连续 6 个 正面 或 反面 的 百分比 。 作 为 提示 , 函数 调用 random.randint (0,1) 将 在 50% 
的 时 间 返 回 0 值 ， 在 另外 50% 的 时 间 返 回 1 值 。 

你 可 以 从 以 下 模板 开始 : 


import random 
numberOfStreaks = 0 
for experimentNumber in range(10000 ) : 
# Code that creates a list of 100 'heads' or ‘tails' values. 


# Code that checks if there is a streak of 6 heads or tails in a Fow， 
print('Chance of streak: %s%%' % (numberofStreaks / 100)) 


当然 ， 这 只 是 一 个 估计 ， 但 是 10 000 是 一 个 不 错 的 样本 量 。 一 些 数 学 知识 可 以 为 你 提供 准 
确 的 答案 ， 并 且 可 以 节省 编写 程序 的 麻烦 ， 但 是 有 些 程序 员 在 数学 方面 稍 弱 。 


4.11.3 ”字符 图 网 格 
假定 有 一 个 列表 的 列表 ， 内 层 列表 的 每 个 值 都 是 包含 一 个 字符 的 字符 串 ， 像 这 样 : 


grid = [[ 


0 ， 人 5 人 Ss 
LO 0 “Ot Os Ss 
0 
Ls ye Oh 
[O's | "0 ， 0 ， 0 ss 
有 四 ， 0 ， Sy 
eg 2 


你 可 以 认为 a -本 2 图 在 x、y 坐标 处 的 字符 ， 该 图 由 这 些 文本 字符 绘制 而 
成 。 原 点 (0, 0) 在 左上 角 ， 向 右 x 坐标 增加 ， 向 下 y 坐标 增加 。 
复制 前 面 的 网 格 值 ， 编 写 代 码 用 它 输出 图 像 : 


提示 : 你 需要 使 用 循环 说 套 循 环 ， 输 出 grid[0] [0] ， 然 后 输出 grid[1][0]， 然 后 输出 grid[2][0]， 
以 此 类 推 ， 直 到 输出 grid[8] [0]。 这 就 完成 了 第 一 行 ， 所 以 接 下 来 输出 换行 。 然 后 程序 将 输出 
grid[0][1]、 输 出 grid[1][1]、 输 出 grid[2][1], 以 此 类 推 ,程序 最 后 将 输出 grid[8][5]。 


如 果 你 不 希望 在 每 次 print( ) 函 数 被 调用 后 都 自动 输出 换行 ， 记 得 同 print() 函 数 传 递 
end 关键 字 参 数 ，。 


字典 和 结构 化 数据 


在 本 章 中 , 我 将 介绍 字典 数据 类 型 , 它 提 供 了 一 种 灵活 的 访问 和 组 织 
据 的 方式 。 然 后 ， 结 合 字典 与 第 4 章 中 关于 列表 的 知识 ， 本 章 将 介绍 如 何 创 
建 一 个 数据 结构 以 对 并 字 棋 盘 建 模 。 


5.1 字典 数据 类 型 


像 列表 一 样 ,“ 字 典 ” 是 许多 值 的 集合 。 但 不 像 列表 的 索引 ,字典 的 索引 可 以 使 用 许多 不 同 
的 数据 类 型 ， 不 只 是 整数 。 字 典 的 索引 被 称 为 “ 键 ”， 键 及 其 关联 的 值 称 为 “ 键 - 值 对 ”。 
在 代码 中 ， 字 典 输 入 时 带 花 括号 {}。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> myCat = {'size': 'fat', 'color': 'gray'，'disposition': 'loud'} 

这 将 一 个 字典 赋 给 myCat 变量 。 这 个 字典 的 键 是 'size'、'color' 和 'disposition'。 
这 些 键 相应 的 值 是 'fat'、'gray' 和 'loud'。 可 以 通过 它们 的 键 访问 这 些 值 : 

>>> myCat['size'] 

'fat' 


>>> "My cat has ' + myCat['color'] + ' fur.' 
‘My cat has gray fur.' 


字典 可 以 用 整数 值 作为 键 ， 就 像 列表 使 用 整数 值 作为 索引 一 样 ， 但 它们 不 必 从 0 开始 ， 可 
以 是 任何 数字 : 


>>> Spam = {12345: “Luggage Combination', 42: 'The Answer '} 


5.1.1 字典 与 列表 


不 像 列 表 ， 字 典 中 的 项 是 不 排序 的 。 在 名 为 spam 的 列表 中 ， 第 一 个 项 是 spam[0] 。 但 字 
典 中 没有 “第 一 个 ”项 。 虽 然 在 确定 两 个 列表 是 耕 相 同时 ， 表 项 的 顺序 很 重要 ， 但 在 字典 中 ， 
健 - 值 对 输入 的 顺 友 并 不 重要 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = ['cats', 'dogs', 'moose’'] 
>>> bacon = ['dogs', 'moose', 'cats'] 
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>>> Spam == bacon 

False 

>>> eggs = {'name': 'Zophie', 'species': 'cat', 'age': '8'} 
>>> ham = {'species': 'cat', 'age': '8', 'name': 'Zophie'} 
>>> eggs == ham 

True 


因为 字典 是 不 排序 的 ， 所 以 不 能 像 列 表 那 样 切片 。 

尝试 访问 字典 中 不 存在 的 键 ， 将 出 现 KeyError 错误 信息 。 这 很 像 列表 的 “越界 ” 
IndexError 错误 信息 。 在 交互 式 环境 中 输入 以 下 代码 ， 并 注意 显示 的 错误 信息 ， 因 为 没有 
'color' 键 : 


>>> Spam = {'name': 'Zophie', 'age': 7} 
>>> spam['color'] 
Traceback (most recent call last): 
File "<pyshell#1>", line 1, in <module> 
spam[ 'color'] 
KeyError: “Color 


尽管 字典 是 不 排序 的 , 但 可 以 用 任意 值 作为 键 , 这 一 点 让 你 能 够 用 强大 的 方式 来 组 织 数 据 。 
假定 你 希望 程序 保存 朋友 生日 的 数据 ， 就 可 以 使 用 一 个 字典 ， 用 名 字 作 为 键 ， 用 生日 作为 值 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 birthdays.py: 


@ birthdays = {'Alice': 'Apr 1', 'Bob': 'Dec 12', "Carol': 'Mar 4'} 


while True: 
print('Enter a name: (blank to quit)') 
name = input() 
if name == "': 
break 


@ if name in birthdays : 

© print(birthdays[name] + ' is the birthday of ' + name) 

else: 
print('I do not have birthday information for ' + name) 
print('What is their birthday?') 
bday = input1() 

@ birthdays[name] = bday 

print('Birthday database Updated.  ) 


可 以 在 https://autbor.com/bdaydb 上 查看 该 程序 的 执行 情况 。 你 创建 了 一 个 初始 的 字典 ， 将 
它 保存 在 birthdays 中 OQ@。 用 in 关键 字 ， 可 以 查看 输入 的 名 字 是 否 作为 键 存 在 于 字典 中 @， 
就 像 查 看 列表 一 样 。 如 果 该 名 字 在 字典 中 ， 那 么 你 可 以 用 方 插 号 访问 关联 的 值 @。 如 果 不 在 ， 
那么 你 可 以 用 同样 的 方 括号 语法 和 赋值 操作 符 深 加 它 @。 
运行 这 个 程序 ， 结 果 看 起 来 如 下 所 示 : 


Enter a name: (blank to quit) 

Alice 

Apr 1 is the birthday of Alice 

Enter a name: (blank to quit) 

Eve 

I do not have birthday information for Eve 
What is their birthday? 

Dec 5 

Birthday database Updated . 

Enter a _ name: (blank to quit) 


i 
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Eve 
Dec 5 is the birthday of Eve 
Enter a name: (blank to quit) 


当然 ， 在 程序 终止 时 ， 你 在 这 个 程序 中 输入 的 所 有 数据 都 丢失 了 。 在 第 9 章 中 ， 你 将 学 习 
如 何 将 数据 保存 在 硬盘 的 文件 中 。 


Vm wp 


nt ee 


汉 和 ECs 


5.1.2 ”keys()、values() 和 items() 方 法 


有 3 个 字典 方法 , 它们 将 返回 类 似 列表 的 值 , 分 别 对 应 于 字典 的 键 、 值 和 键 - 值 对 : keys ()、 
values() 和 items () 方 法 。 这 些 方法 返回 的 值 不 是 真正 的 列表 ， 它 们 不 能 被 修改 ， 没 有 
append () 方 法 。 但 这 些 数据 类 型 (分别 是 dict_keys、dict_ values 和 dict items) 可 以 
用 于 for 循环 。 为 了 了 解 这 些 方法 的 工作 原理 ， 请 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = {'color': 'red', 'age': 42} 
>>> for v in spam.values(): 

print(v) 
red 


42 
这 里 ，for 循环 从 代 了 spam 字典 中 的 每 个 值 。for 循环 也 可 以 运 代 每 个 键 或 者 键 - 值 对 : 


>>> for k in spam.keys(): | 
print(k) | 


color 
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age 
>>> for i in spam.items(): 
print(i) 


('color', 'red') 

('age', 42) 

利用 keys()、values() 和 items() 方 法 ， 循 环 分 别 可 以 迭代 键 、 值 和 键 - 值 对 。 请 注意 ， 
items() 方 法 返回 的 dict_items 值 包含 的 是 键 和 值 的 元 组 。 

如 果 希 望 通过 这 些 方法 得 到 一 个 真正 的 列表 ， 就 把 类 似 列表 的 返回 值 传递 给 1ist ( ) 函数 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = {'color': 'red', 'age': 42} 

>>> Spam.keys( ) 

dict keys(['color'，'age']) 

>>> 1ist(Spam-keys()) 

list(spam.keys() ) 代 码 行 接收 keys() 函数 返回 的 dict_keys 值 ， 并 传递 给 1ist() 
函数 ， 然 后 返回 一 个 列表 ， 即 ['color'， 'age']。 

也 可 以 利用 多 重 赋值 的 技巧 , 在 for 循环 中 将 键 和 值 赋 给 不 同 的 变量 。 在 交互 式 环 境 中 输 
入 以 下 代码 : 

>>> Spam = {'color': 'red', 'age': 42} 

>>> for k, v in spam.items(): 

print('Key: ' +k + ' Value: ' + str(v)) 


Key: age Value: 42 
Key: color Value: red 


5.1.3 ”检查 字典 中 是 否 存在 键 或 值 


前 一 章 提 到 , in 和 not in 操作 符 可 以 检查 值 是 否 存 在 于 列表 中 。 也 可 以 利用 这 些 操作 符 ， 
检查 某 个 键 或 值 是 否 存 在 于 字典 中 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = {'name': 'Zophie', 'age': 7} 
>>> “name” in Spam.keys() 

True 

>>> 'Zophie' in spam.values() 
True 

>>> 'color' in Spam.keys() 
False 

>>> 'color' not in Spam.keys() 
True 

>>> ‘'color' in spam 

False 


请 注意 , 在 前 面 的 例子 中 ，' color' in spam 本 质 上 是 一 个 简写 版 本 。 相 当 于 'color' in 
spam.keys()。 这 种 情况 总 是 对 的 : 如 果 想 要 检查 一 个 值 是 否 为 字典 中 的 键 ， 就 可 以 将 关键 字 
in (或 not in) 作用 于 该 字典 本 身 。 


5.1.4 get() 方 法 
在 访问 一 个 键 的 值 之 前 ， 检 查 该 键 是 否 存 在 于 字典 中 ， 这 很 麻烦 。 好 在 字典 有 一 个 get () 
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方法 ， 它 有 两 个 参数 ， 分 别 为 要 取得 其 值 的 键 ， 以 及 当 该 键 不 存在 时 返回 的 备用 值 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> picnicItems = {'apples': 5, 'cups': 2} 

>>> 'I1 am bringing ' + str(picnicItems .get('cups'，0)) + ' cups.' 
'I am bringing 2 cups.’ 

>>> “TI am bringing ' + str(picnicItems .get('eggs'，0)) + ' eggs.' 
'I am bringing 0 eggs.' 


因为 picnicItems 字 典 中 没有 'eggs ' 键 ,所 以 get () 方 法 返回 的 默认 值 是 0。 不 使 用 get() 


方法 ， 代 码 就 会 产生 一 个 错误 信息 ， 就 像 下 面 的 例子 : 


>>> picnicItems = {'apples': 5, 'cups': 2} 
>>> 'I am bringing ' + str(picnicIitems['eggs']) + ' eggs.' 
Traceback (most recent call last): 
File "<pyshell#34>", line 1, in <module> 
'I am bringing ' + str(picnicItems['eggs']) + ' eggs.' 
KeyError: 'eggs' 


5.1.5 ”setdefault() 方 法 

你 常常 需要 为 字典 中 的 某 个 键 设置 一 个 默认 值 ， 当 该 键 没有 任何 值 时 使 用 它 。 代 码 看 起 来 
像 这 样 : 

spam = {'name': 'Pooka', 'age': 5} 


if 'color' not in spam: 
spam[ 'color'] = 'black' 


setdefault () 方 法 提供 了 一 种 方式 ， 可 以 在 一 行 中 完成 这 件 事 。 传 递 给 该 方法 的 第 一 个 


参数 是 要 检查 的 键 ， 第 二 个 参数 是 当 该 键 不 存在 时 要 设置 的 值 。 如 果 该 键 确实 存在 ， 那 么 
setdefault() 方 法 就 会 返回 键 的 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = {'name': 'Pooka', 'age': 5} 

>>> spam.setdefault('color', 'black') 

‘black' 

>>> spam 

{ olor”s "black’,s "0 5 "name': "Pooka'’} 
>>> spam.setdefault('color', 'white') 

‘black' 

>>> spam 

{'color': 'black', 'age': 5, 'name': “Pooka '} 


第 一 次 调用 setdefault () 方 法 时 , spam 变量 中 的 字典 变 为 {'color': 'black'，'age': 


5，'name': 'Pooka'}。 该 方法 返回 值 'black'， 因 为 现在 该 值 被 赋 给 键 'color' 。 当 
spam.setdefault('color'，'white' ) 接 下 来 被 调用 时 ， 该 键 的 值 没 有 被 改变 成 'white'， 
因为 spam 变量 已 经 有 名 为 'color ' 的 键 了 。 

setdefault() 方 法 是 一 个 很 好 的 快捷 方式 ,可 以 确保 有 一 个 键 存 在 。 下面 有 一 个 小 程序 ， 
可 以 计算 一 个 字符 串 中 每 个 字符 出 现 的 次 数 。 打 开 一 个 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 保 存 
为 characterCount.py: 


message = 'It was a bright cold day in April, and the clocks were Striking thirteen.' 
count = {} 
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for character in message: 
@ count.setdefault(character, 0) 
四 count[character] = count[character] + 1 


print (count) 


可 以 在 https://autbor.com/setdefault 上 查看 该 程序 的 执行 情况 。 程序 循环 迭代 message 变量 
中 的 每 个 字符 ， 以 计算 每 个 字符 出 现 的 次 数 。 调 用 setdefault ( ) 方 法 @ 确 保 了 键 存 在 于 count 
字典 中 (默认 值 是 0)， 这 样 在 执行 count[character] = count[character] + 1 时 @， 就 不 
会 出 现 KeyError 错误 。 程 序 运行 时 的 输出 结果 如 下 : 


1 4 
和 RR 


从 输出 结果 可 以 看 到 , 小 写字 和 母 c 出 现 了 3 次 , 空格 字符 出 现 了 13 次 , 大 写字 母 A 出 现 了 1 次 。 
无 论 message 变量 中 包含 什么 样 的 字符 串 ， 这 个 程序 都 能 工作 ， 即 使 该 字符 串 有 上 百 万 个 字符 。 


5.2 ”美观 地 输出 


如 果 程 序 导入 了 pprint 模块 ， 就 可 以 使 用 pprint() 和 pformat() 函 数 ， 它 们 将 “美观 
地 输出 ”一 个 字典 的 字 。 如 果 想 要 字典 中 项 的 显示 比 print() 函 数 的 输出 结果 更 优雅 ， 该 功能 
就 有 用 了 。 修 改 前 面 的 characterCount.py 程序 ， 将 它 保存 为 prettyCharacterCount.py: 


import pprint 

message = 'It was a bright cold day in April, and the clocks were striking 
thirteen.' 

count = {} 


for character in message: 
count.setdefault (character, 0) 
count[character] = count[character] + 1 


pprint.pprint(count) 


可 以 在 https://autbor.com/pprint/ 上 查看 该 程序 的 执行 情况 。 这 一 次 ， 当 程序 运行 时 ,输出 结 
果 看 起 来 更 优雅 ， 键 是 排 过 序 的 : 


5 
1， 
es 
I 
SW 

--SNip-- 
ye 
WW 
yr 


如 果 字 典 本 身 包含 嵌 套 的 列表 或 字典 ， 那 么 pprint.pprint() 函 数 就 特别 有 用 。 
如 果 和 希望 将 美观 的 文本 作为 字符 串 输出 , 而 不 显示 在 屏幕 上 , 那 就 调用 pprint. pformat() 
函数 。 下 面 两 行 代 码 是 等 价 的 : 


pprint.pprint(someDictionaryValue) 
print (pprint.pformat (someDictionaryValue)) 
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5.3 ”使 用 数据 结构 对 真实 世界 建 模 


在 因特网 出 现 之 前 ， 人 们 也 有 办 法 与 世界 另 一 边 的 某 人 下 一 盘 国际 象棋 。 每 个 棋 手 在 自己 
家 里 放 好 一 个 棋盘 ， 然 后 轮流 向 对 方 寄 出 明信片 ， 描 述 每 一 着 棋 。 要 做 到 这 一 点 ， 棋 手 需要 一 
种 方法 能 无 二 义 地 描述 棋盘 的 状态 以 及 他 们 的 着 法 。 

在 “代数 记 谱 法 ”中 ， 棋 盘 空 间 由 数字 和 字母 构成 的 坐标 确定 ， 如 图 $-1 所 示 。 

棋子 用 字母 表示 : K 表示 王 ，Q 表示 后 ，R 表示 车 ，B 表示 象 ，N 表示 马 。 要 描述 一 次 移 
动 , 可 用 模子 的 字母 和 它 的 目的 地 坐标 表示 。 一 对 这 样 的 移动 表示 一 个 回合 ( 白 方 先 下 ), 例如 ， 
棋谱 2. Nf3 Nc6 表明 在 棋局 的 第 二 回合 ， 白 方 将 马 移动 到 f3， 黑 方 将 马 移动 到 c6。 

代数 记 谱 法 还 有 更 多 内 容 , 要 点 是 你 可 以 用 它 无 二 义 地 描述 国际 象棋 游戏 , 不 需要 站 在 棋盘 前 。 
你 的 对 手 甚至 可 以 在 世界 的 男 一 边 。 实 际 上 ， 如 果 你 的 记忆 力 很 好 ， 甚 至 不 需要 使 用 物理 的 棋具 : 
只 需要 阅读 寄 来 的 棋子 移动 信息 ， 并 更 新 心里 想 的 棋盘 。 

计算 机 有 很 好 的 记忆 力 。 现 在 计算 机 上 的 程序 ， 很 容易 存储 几 百 万 个 像 2. Nf3 Nc6' 这 样 的 
字符 串 。 这 承 是 为 什么 计算 机 不 用 物理 棋盘 就 能 下 国际 象棋 。 它 们 用 数据 建 模 来 表示 棋盘 ， 你 
可 以 编写 代码 来 使 用 这 个 模型 。 

这 里 就 可 以 用 到 列表 和 字典 。 例 如 , 字典 {'1h': 'bking', '6c':'queen','2g':'bishop',， 
'5h': 'queen'，'3e': 'waking'} 可 以 表示 图 5-2 所 示 的 棋盘 。 


8 
图 7 
O 
4 
SE 
"Ee 
显 2 
本 和 和 g h 
图 5-1 代数 记 谱 法 中 棋盘 的 坐标 图 5-2 ”用 字典 建 模 的 棋盘 {'1h': 'bking'， 
6c : ‘queen', '2g': “bishop ， 
‘Sh': ‘queen', '3e': 'waking'} 


作为 另 一 个 例子 ， 我 们 将 使 用 比 国际 象棋 简单 一 点 的 游戏 ， 井 字模 。 
5.3.1 井 字 棋盘 


井 字 棋 胡 看 起 来 像 一 个 大 的 井 字 符号 (#)， 有 9 个 空格 ， 可 以 包含 玩家 X、 玩 家 0 或 空格 。 要 
用 字典 表示 井 字 棋盘 ， 可 以 为 每 个 格子 分 配 一 个 字符 串 键 ， 如 图 5-3 所 示 。 
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可 以 用 字符 串 值 来 表示 ， 棋 盘 上 每 个 格子 有 'X'、 '0' 或 ' '“〈 空 格 字符 )。 因 此 ， 和 需要 仓储 9 
个 字符 串 。 可 以 用 一 个 字典 来 做 这 件 事 。 带 有 键 'top-R' 的 字符 串 表示 右上 角 ， 带 有 键 ' low-L' 
的 字符 串 表示 左下 角 ， 带 有 键 'mid-M' 的 字符 串 表 示 中 间 ， 以 此 类 推 。 

这 个 字典 就 是 表示 井 字 棋盘 的 数据 结构 。 将 这 个 字典 表示 的 井 字 棋盘 保存 在 名 为 theBoard 
的 变量 中 。 打 开 一 个 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 ticTacToe.py: 


theBoard = {'top-L': '* ', 'top-M'’: ' ', top-R : ”” 
1 
ome “0w= A 


保存 在 theBoard 变量 中 的 数据 结构 表示 了 图 5-4 所 示 的 井 字 棋盘 。 


图 5-3” 井 字 棋 盘 的 格子 和 它们 对 应 的 键 图 5-4 ”一 个 空 的 井 字 棋盘 


因为 theBoard 变量 中 每 个 键 的 值 都 是 单个 空格 字符 ， 所 以 这 个 字典 表示 一 个 完全 干净 的 
棋盘 。 如 果 玩 家 X 选择 了 中 间 的 空格 ， 就 可 以 用 下 面 这 个 字典 来 表示 棋盘 : 


theBoard = {top * “> "topM es Op-R 2 
i mid-M': 'X', 'mid-R 
low-L low-M low-R } 


theBoard 变量 中 的 数据 结构 现在 表示 图 5-5 所 示 的 井 字 棋盘 。 
在 玩家 0 获胜 的 棋盘 中 ，0 会 横贯 棋盘 的 顶部 : 
theBoard = {'top-L': '0', 'top-M': '0', 'top-R': "0 ， 
1 DE 
'low-L': ' ', 'low-M': ' ', 'low-R': 'X'} 


theBoard 变量 中 的 数据 结构 现在 表示 图 5-6 所 示 的 井 字 棋盘 。 


OIOIO 
XIX 
X 


图 5-5 第 一 着 图 5-6 ”玩家 0 获胜 
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当然 ， 玩 家 只 看 到 输出 在 屏幕 上 的 内 容 ， 而 不 是 变量 的 内 容 。 让 我 们 创建 一 个 函数 ， 将 棋 
盘 字 典 输出 到 屏幕 上 。 将 下 面 代 码 添加 到 ticTacToe.py〈 新 代码 是 黑体 的 ): 


theBoarg 公式- 上 OP 3  *, "Hp 0 tops 
2 
0W=E LW TWA 
def printBoard(board): 
print(board['top-L'] + '|' + board['top-M'] + '|' + board['top-R']) 
print('-+-+-') 
print(board['mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 
print('-+-+-"') 
print(board['low-L'] + '|' + board['low-M'] + '|' + board['low-R']) 
printBoard(theBoard) 


可 以 在 https://autbor.comytictactoel/ 上 查看 该 程序 的 执行 情况 。 运 行 这 个 程序 时 , printBoard() 
函数 将 输出 空白 井 字 棋盘 : 


| | 
人 
printBoard() 函 数 可 以 处 理 传 入 的 任何 井 字 棋盘 数据 结构 。 尝 试 将 代码 改 成 以 下 的 样子 : 


theBoard = {'top-L': '0', ‘top-M': '0', 'top-R’: '0', 'mid-L’: 'X', 'mid-M': 


Ks "Md ows * “9 "LOW-B 3 * “0N=R's "XX: 
def printBoard(board ) : 
print(board[ 'top-L'] + '|' + board['top-M'] + '|' + board['top-R']) 
print('-+-+-') 
print(board['mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 
print('-+-+-') 
print(board['low-L'] + '|' + board['low-M'] + '|' + board['low-R']) 
printBoard(theBoard) 


可 以 在 https://autbor.com/tictactoe2/ 上 查看 该 程序 的 执行 情况 。 现 在 运行 该 程序 ， 新 棋盘 将 
输出 在 屏幕 上 : 


因为 你 创建 了 一 个 数据 结构 来 表示 井 字 棋盘 ， 并 编写 了 printBoard ( ) 函数 来 解释 该 数据 
结构 ,所 以 就 有 了 一 个 程序 来 对 井 字 棋盘 进行 “ 建 模 ”。 也 可 以 用 不 同 的 方式 组 织 数据 结构 ( 例 
如 ， 使 用 'TOP-LEFT' 这 样 的 键 来 代替 'top-L' )。 只 要 代码 能 处 理 你 的 数据 结构 ， 那 么 该 程序 
就 能 正确 工作 。 

例如 ， 使 用 printBoard() 函 数 的 前 提 是 井 字 棋盘 数据 结构 是 一 个 字典 ， 并 包含 全 部 的 9 
个 格子 中 的 键 。 假 如 传 入 的 字典 缺少 'mid-L' 键 ,程序 就 不 能 工作 了 : 

ololo 


Traceback (most recent call last): 
File "ticTacToe.py", line 10, in <module> 
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printBoard(theBoard ) 
File "ticTacToe.py", line 6, in printBoard 
print(board[ 'mid-L'] + '|' + board['mid-M'] + '|' + board['mid-R']) 


KeyError: mid-L' 


现在 让 我 们 添加 代码 ， 人 允许 玩家 输入 他 们 的 着 法 。 修 改 ticTacToe.py 程序 ， 如 下 所 示 : 


theBoard = {'top-L': ' ', 'top-M': ' ', 'top-R': ' ', ‘mid-L': ' '‘, ‘mid-M': ' 
“9 ‘mid-R': . Tow-L': 二 “ 1 11oWw- 网 : . Ve :1 ow-R: 间 着， 


def printBoard(board): 


print(board[ 'top-L'] + '|' + board['top-M'] + '|' + board['top-R']) 

print('-+-+-'") 

print(board[ 'mid-L'] + '|' + board['mid-M'] + '|' + board{'mid-R']) 

print('-+-+-') 

print(board['low-L'] + '|' + board['low-M'] + '|' + board['low-R']) 
turn = 'X' 


for i in range(9): 
@ printBoard(theBoard) 
print('Turn for ' + turn + '. Move on which space?') 
四 move = input() 
© theBoard[move] = turn 
9 


if turn == 'X': 
turn = “0 
else: 
turn = 'X’ 
printBoard(theBoard ) 


可 以 在 https://autbor.com/tictactoe3/ 上 查看 该 程序 的 执行 情况 。 新 的 代码 在 每 一 步 新 的 着 法 
之 前 ， 输 出 棋盘 @， 获 取 当 前 棋 手 的 着 法 @， 并 相应 地 更 新 棋盘 目 。 然 后 改变 当前 横 手 @， 进 
六 下 一 着 。 

行 该 程序 ， 它 看 起 来 像 这 样 : 


mi 
a 


for X. Move on which space? 


"3 
E— 


' ! 汉 一 ' 1 
一 + 一 + 一 上 和 一 + 一 + 一 
' D 


0 St 
一 + 一 + 一 3 一 + 一 + 一 


--Snip-- 
0O|0|X 

-十 -十 - 
X|Xi0 
5 

0| |X 
Turn for X. Move on which Space? 
low-M 
0|0|X 

二 语序 莉 却 
X|XI0 

~ 十 -十 - 
0O|X|xX 
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这 不 是 一 个 完整 的 井 字 棋 游戏 (例如 ， 它 并 不 检查 玩家 是 否 获胜 ),， 但 这 已 足够 展示 如 何在 
程序 中 使 用 数据 结构 。 


注意 : 如 果 你 很 好 奇 ， 完 整 的 并 字 棋 程序 的 源 代 码 可 以 在 网 上 找到 。 


5.3.2” 藤 套 的 字典 和 列表 


对 井 字 棋 盘 建 模 相当 简单 : 棋盘 只 需要 一 个 字典 ， 包 含 9 个 键 - 值 对 。 当 你 对 复杂 的 事物 建 
模 时 ， 可 能 发 现 字典 和 列表 中 需要 包含 其 他 字典 和 列表 。 列 表 适 用 于 包含 一 组 有 序 的 值 ， 字 典 
适用 于 包含 关联 的 键 与 值 。 例 如 ， 下 面 的 程序 使 用 字典 包含 其 他 字典 ， 用 于 记录 谁 为 野餐 带 
来 了 什么 食物 。totalBrought () 函 数 可 以 读 取 这 个 数据 结构 ， 计 算 所 有 客人 带 来 的 食物 的 
总 数 : 


allGuests = {'Alice': {'apples': 5, 'pretzels': 12}, 
'Bob': {'ham sandwiches': 3, 'apples': 2}, 
'Carol': { cups': 3, 'apple pies': 1}} 


def totalBrought(guests, item): 
numBrought = 0 
© for k, v in guests.items(): 
@ numBrought = numBrought + v.get(item, 0) 
return numBrought 


print('Number of things being brought:') 


print(' - Apples “+ str(totalBrought(allGuests, 'apples'))) 

print(' - Cups ' + str(totalBrought(allGuests, 'cups'))) 

print(' - Cakes "+ str(totalBrought(allGuests, 'cakes'))) 

print(' - Ham Sandwiches ' + str(totalBrought(allGuests, 'ham sandwiches'))) 
print(' - Apple Pies "+ str(totalBrought(allGuests, 'apple pies'))) 


可 以 在 https://autbor.com/guestpicnic/ 上 查看 该 程序 的 执行 情况 。 在 totalBrought() 函 数 中 ， 
for 循环 迭代 guests 中 的 每 个 键 - 值 对 QO。 在 这 个 循环 里 ， 客 人 的 名 字 字 符 串 赋 给 k， 他 们 带 
来 的 野餐 食物 的 字典 赋 给 v。 如 果 食 物 参数 是 字典 中 存在 的 键 ， 那 么 它 的 值 (数量 ) 就 被 添加 
到 numBrought@。 如 果 它 不 是 键 ，get ( ) 方 法 就 返回 0， 被 添加 到 numBrought 。 

该 程序 的 输出 结果 像 这 样 : 


Number of things being brought: 
- Apples 7 

- Cups 3 

- Cakes 0 

- Ham Sandwiches 3 

- Apple Pies 1 


这 似乎 是 对 一 个 非常 简单 的 东西 建 模 , 你 可 能 认为 不 需要 费事 去 写 一 个 程序 来 做 到 这 一 点 。 但 
是 要 认识 到 ， 函 数 totalBrought ( ) 可 以 轻易 地 处 理 一 个 字典 ， 其 中 可 以 包含 数 干 名 客人 ， 每 个 
人 都 带 来 了 “ 数 千 种 ”不 同 的 食物 。 用 这 种 数据 结构 来 保存 信息 ， 并 使 用 totalBrought ( ) 函数 ， 
就 会 节约 大 量 的 时 间 。 

你 可 以 用 目 己 喜欢 的 任何 方法 来 用 数据 结构 对 事物 建 模 ， 上 只 要 程序 中 的 其 他 代码 能 够 正确 
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处 理 这 个 数据 模型 。 在 刚 开始 编程 时 ， 不 需要 太 关 心 数据 建 模 的 “正确 ”方式 。 随 着 经 验 的 增 
加 ， 你 可 能 会 得 到 更 有 效 的 模型 ， 重 要 的 是 该 数据 模型 符合 程序 的 需要 。 


5 小结 


在 本 章 中 ， 你 学 习 了 字典 的 所 有 相关 知识 。 列 表 和 字典 可 以 包含 多 个 值 ， 当 然 ， 可 以 包括 
其 他 列表 和 字典 ， 它 们 本 身 也 是 一 个 值 。 字 典 是 有 用 的 ， 因 为 你 可 以 把 一 些 项 ( 键 〉 映 射 到 为 
一 些 项 ( 值 ), 不 像 列 表 只 包含 一 系列 有 序 的 值 。 字典 中 的 值 是 通过 方 括号 访问 的 , 像 列表 一 样 。 
字典 不 使 用 整数 索引 ， 而 是 用 各 种 数据 类 型 如 整 型 、 浮 点 型 、 字 符 串 或 元 组 作为 键 。 通 过 将 程 
序 中 的 值 组 织 成 数据 结构 ， 你 可 以 创建 真实 世界 事物 的 模型 ， 井 字 棋 盘 就 是 这 样 一 个 例子 。 


5.5 习 患 

1. 空 字 典 的 代码 是 什么 样 的 ? 

2. 一 个 字典 包含 键 'fow' 和 值 42， 它 看 起 来 是 什么 样 的 ? 

3. 字典 和 列表 的 主要 区 别 是 什么 ? 

4. 如 果 spam 变量 是 {'bar' : 100}， 那 么 当 你 试图 访问 spam[ 'foo' ] 时 ， 会 发 生 什么 ? 

5. 如 果 一 个 字典 保存 在 spam 变量 中 ， 那 么 表达 式 'cat' in spam 和 'cat' in spam.keys() 
之 间 的 区 别 是 什么 ? 

6. 如 果 一 个 字典 保存 在 spam 变量 中 , 那么 表达 式 'cat' in spam 和 'cat' in spam.values() 
之 间 的 区 别 是 什么 ? 


7. 下 面 代 码 的 简洁 写法 是 什么 ? 


if 'color' not in spam: 
spam[ 'color'] = 'black' 


8. 什么 模块 和 函数 可 以 用 于 输出 美观 的 字典 值 ? 
5.6 ”实践 项 目 

作为 实践 ， 编 程 完成 下 列 任 务 。 
5.6.1 国际 象棋 字典 验证 器 


在 本 章 中 ， 我 们 用 字典 值 {'1h': 'bking'，'6c': 'wqueen'，'2g': 'bbishop', 
'5h': 'bqueen'， '3e': 'wking'} 代 表 棋 盘 。 编 写 一 个 名 为 isValidChessBoard() 
的 函数 ， 该 函数 接收 一 个 字典 作为 参数 ， 根 据 棋盘 是 否 有 效 ， 返 回 True 或 False。 

一 个 有 效 的 棋盘 只 有 一 个 黑 王 和 一 个 白 王 。 每 个 玩家 最 多 只 能 有 16 个 棋子 ， 最 多 8 个 兵 ， 
并 且 所 有 棋子 必须 位 于 从 ' 1a' 到 '8h' 的 有 效 位 置 内 ; 也 就 是 说 ， 棋 子 不 能 在 位 置 '9z' 上 。 棋 
子 名 称 以 'w' 或 b' 开 头 ， 代 表白 色 或 黑色 ; 然后 是 'pawn'、'knight'、'bishop'、'rook'、 
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'queen ' 或 "king' 。 如 果 出 现 了 “棋盘 不 正确 ”的 错误 ， 这 个 函数 应 该 能 检测 出 来 。 
5.6.2 ”好 玩 游戏 的 物品 清单 


创建 一 个 好 玩 的 视频 游戏 。 用 于 对 玩家 物品 清单 建 模 的 数据 结构 是 一 个 字典 。 其 中 键 是 字 
符 串 ， 用 于 描述 清单 中 的 物品 ， 值 是 一 个 整 型 值 ， 用 于 说 明 玩 家 有 多 少 该 物品 。 例 如 ， 字 典 值 
{"'rope': 1, "torch': 6, 'gold coin': 42,，'dagger' : 1，'arrow' : 12} 意 味 着 
玩家 有 1 条 绳索 、6 个 火把 、42 枚 金币 等 。 

编写 一 个 名 为 displayInventory() 的 函数 ， 它 接收 任何 可 能 的 物品 清单 ， 显 示 如 下 : 


Inventory: 

12 arrow 

42 gold coin 

1 rope 

6 torch 

1 dagger 

Total number of items: 62 


提示 : 你 可 以 使 用 for 循 环 遍 历 字 典 中 所 有 的 键 。 


# inventory.py 
stuff = {rope': 1, ‘torch’': 6, "gold coin': 42, ‘dagger’: 1, ‘arrow’: 12} 


def displayInventory(inventory): 
print("Inventory:") 
item total = 0 
for k, v in inventory.items(): 
# FILL THIS PART IN 
print("Total number of items: " + str(item total)) 


displayInventory (stuff) 


5.6.3 ”列表 到 字典 的 函数 ， 针 对 好 玩 游戏 的 物品 清 
假设 征服 一 条 龙 的 战利品 表示 为 下 列 的 字符 串 列表 : 


dragonLoot = ['gold coin', 'dagger', 'gold coin', 'gold coin', ‘ruby'] 


编写 一 个 名 为 addToInventory(inventory，addedItems) 的 函数， 其 中 inventory 
参数 是 一 个 字典 ， 表 示 玩 家 的 物品 清单 〈 像 前 面 项 目 一 样 ); addedItems 参数 是 一 个 列表 ， 就 
像 dragonLoot。 

addToInventory() 函 数 应 该 返回 一 个 字典 ， 表 示 更 新 过 的 物品 清单 。 请 注意 ， 列 表 可 以 
包含 多 个 同样 的 项 。 你 的 代码 看 起 来 可 能 像 这 样 : 


def addToInventory(inventory，addedItems ) : 
# your code goes here 


nv = {gold coin’: 42; "rope": 全 

dragonLoot = ['gold coin', 'dagger', 'gold coin’, 'gold coin', 'ruby'] 
inv = addToInventory(inv, dragonLoot) 

displayInventory(inv) 


100 第 5 章 字典 和 结构 化 数据 


前 面 的 程序 (加 上 前 一 个 项 目 中 的 displayInventory() 函 数 ) 将 输出 如 下 结果 : 


Inventory: 
45 gold coin 
1 rope 

1 ruby 

1 dagger 


Total number of items: 48 


字 侍 串 操 作 


文本 是 程序 需要 处 理 的 最 常见 的 数据 形式 。 你 已 经 知道 如 何 用 + 操作 符 
连接 两 个 字符 事 ， 但 Python 能 做 的 事情 比 你 知道 的 还 要 多 得 多 。Python 可 
以 从 字符 串 中 提取 部 分 字符 串 ， 添 加 或 删除 空白 字符 ,将 字母 转换 成 小 写 或 
大 写 ， 检 查 字符 串 的 格式 是 否 正确 。 你 甚至 可 以 编写 Python 代码 访问 剪贴 
板 ， 复 制 或 粘贴 文本 。 

在 本 章 中 ,你 将 学 习 以 上 所 有 内 容 和 更 多 内 容 。 然 后 你 会 看 到 两 个 不 同 
的 编程 项 目 : 一 个 是 简单 的 剪贴 板 ， 它 保存 了 多 个 文本 字符 串 ; 另 一 个 是 将 
繁琐 的 文本 格式 化 工作 自动 化 。 


6.1 处 理 字符 串 
让 我 们 来 看 看 Python 提供 的 一 些 用 于 写 入 、 输 出 和 访问 字符 串 的 方法 。 
6.1.1 字符 串 字面 量 


在 Python 中 输入 字符 串 值 相当 简单 : 它们 以 单 引号 开始 和 结束 。 但 是 如 何 才 能 在 字符 串 内 
使 用 单 引 号 呢 ? 输入 'That is Alice's cat.' 是 不 行 的 ， 因 为 Python 认为 这 个 字符 串 在 
Alice 之 后 承 结 束 了 ， 剩 下 的 〈s cat. ') 是 无 效 的 Python 代码 。 好 在 ， 有 几 种 方法 来 输入 字 
符 串 。 

双 引 号 


字符 串 可 以 用 双 引 号 开始 和 结束 ， 就 像 用 单 引 号 一 样 。 使 用 双 引 号 的 一 个 好 处 就 是 字符 串 
中 可 以 使 用 单 引号 字符 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> spam = "That is Alice's cat." 


因为 字符 串 以 双 引 号 开始 ， 所 以 Python 知道 单 引 号 是 字符 串 的 一 部 分 ， 而 不 是 表示 字符 串 
的 结束 。 但 是 ， 如 果 在 字符 串 中 既 需 要 使 用 单 引 号 ， 又 需要 使 用 双 引 号 ， 那 就 要 使 用 转 义 字符 。 


“ 转 义 字 符 ” 可 以 让 你 输入 一 些 字符 ， 这 些 字符 用 其 他 方式 是 不 可 能 放 在 字符 串 里 的 。 转 义 字符 
包含 一 个 倒 斜 杠 (\)， 紧 跟着 是 想 要 添加 到 字符 串 中 的 字符 。( 尽 管 它 包 含 两 个 字符 ， 但 大 家 公认 它 
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是 一 个 转 义 字符 。) 例如 ， 单 引号 的 转 义 字符 是 "， 你 可 以 在 以 单 引号 开始 和 结束 的 字符 串 中 使 用 它 。 
为 了 查看 转 义 字符 的 效果 ， 在 交互 式 环境 中 输入 以 下 代码 : 

>>> spam = 'Say hi to Bob\'s mother.' 

Python 知道 ， 因 为 Bob\'s 中 的 单 引号 前 有 一 个 倒 斜 枉 ， 所 以 它 不 是 表示 字符 串 结束 的 单 引 
号 。 转 义 字 符 \ 和 \" 让 你 能 在 字符 串 中 加 入 单 引号 和 双 引 号 。 

表 6-1 列 出 了 可 用 的 转 义 字符 。 


表 6-1 转 义 字符 
转 义 字符 输出 为 
\ 单 引号 
芒 双 引 号 
\t 制 表 符 
un 换行 符 
\\ 倒 斜 杠 


在 交互 式 环境 中 输入 以 下 代码 : 


>>> print("Hello there!\nHow are you?\nI\'m doing fine.") 
Hello there! 

How are you? 

I'm doing fine. 


原始 字符 串 


可 以 在 字符 串 开始 的 引号 之 前 加 上 r,， 使 它 成 为 原始 字符 串 。“ 原始 字符 串 ” 完 全 忽略 所 有 
的 转 义 字符 ， 可 输出 字符 串 中 所 有 的 倒 斜 杠 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> print(r'That is Carol\'s cat.') 
That is Carol\'s cat. 


因为 这 是 原始 字符 串 , 所 以 Python 认为 倒 斜 杠 是 字符 串 的 一 部 分 , 而 不 是 转 义 字符 的 开始 。 
如 果 输 入 的 字符 串 包含 许多 倒 斜 杠 ， 例 如 下 一 章 中 要 介绍 的 正则 表达 式 字 符 串 ， 那 么 原始 字符 
串 就 很 有 用 。 

用 三 重 引 号 的 多 行 字符 串 


虽然 可 以 用 \n 转 义 字符 将 换行 符 放 入 一 个 字符 串 ， 但 使 用 多 行 字 符 串 通常 更 容易 。 在 
Python 中 ， 多 行 字 符 串 用 3 个 单 引 号 或 3 个 双 引 号 包围 (开始 和 结尾 处 均 有 )。“ 三 重 引 号 ”之 
间 的 所 有 引号 、 制 表 符 或 换行 符 ， 都 被 认为 是 字符 串 的 一 部 分 。Python 的 代码 块 缩 进 规则 不 适 
用 于 多 行 字符 串 。 

打开 文件 编辑 器 ， 输 入 以 下 代码 : 

print('''Dear Alice, 

Eve's cat has been arrested for catnapping, cat burglary, and extortion. 


Sincerely, 
BoD:*"*) 
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将 该 程序 保存 为 catnapping.py 并 运行 。 输 出 结果 看 起 来 像 这 样 : 


Dear Alice， 


Eve's cat has been arrested for catnapping，cat burglary，and extortion. 


Sincerely， 
Bob 


请 注意 ，Eve's 中 的 单 引 号 字符 不 需要 转 义 。 在 原始 字符 串 中 ， 转 义 单 引号 和 双 引 号 是 可 选 
的 。 下 面 的 print () 调 用 将 输出 同样 的 文本 ， 但 没有 使 用 多 行 字 符 串 : 


print('Dear Alice,\n\nEve\'s cat has been arrested for catnapping, cat 
burglary, and extortion.\n\nSincerely,\nBob') 


多 行 注释 


井 号 字符 〈#) 用 于 单行 注释 ， 多 行 字符 串 常常 用 作 多 行 注释 。 下 面 是 完全 有 效 的 Python 
代码 : 


"""This is a test Python program. 
Written by Al Sweigart al@inventwithpython.com 


This program was designed for Python 3, not Python 2. 


def Spam( ) : 
"""This is a multiline comment to help 
explain what the spam() function does."”"”" 
print('Hello!') 


6.1.2 ”字符 串 索 引 和 切片 


字符 串 像 列 表 一 样 ， 使 用 索引 和 切片 。 可 以 将 字符 串 '"Hello，world! 看 成 一 个 列表 ， 字 符 串 
中 的 每 个 字符 都 是 一 个 项 ， 有 对 应 的 索引 : 


H  e 1 3 0 W 0 rn 1 d ! 
QO 1 2 3 4 5 6 7 8 9 10 11 12 


字符 计数 包含 了 空格 和 感叹 号 ， 所 以 'Hello，wor1d!' 有 13 个 字符 ，H 的 索引 是 0，! 的 
索引 是 12。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = “Hello， world! 
>>> Spam[0] 
0 


>>> Spam[4] 
O 
>>> Spam[-1] 


>>> Spam[0:5] 
所 四 了 二 人 

>>> Spam[:5] 
"Hello' 

>>> spam[7:] 
'world!' 
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如 果 指 定 一 个 索引 ， 你 将 得 到 字符 串 在 该 处 的 字符 。 如 果 用 一 个 索引 和 另 一 个 索引 指定 一 
个 范围 ， 开 始 索引 将 被 包含 ， 结 束 索引 则 不 包含 。 因 此 ， 如 果 spam 变量 是 'Hello world!'， 
那么 spam[0:5] 就 是 'Hello'。 通 过 spam[0:5] 得 到 的 子 字 符 串 将 包含 spam[0] 到 spam[4] 
的 全 部 内 容 ， 而 不 包含 索引 5 处 的 逗号 和 索引 6 处 的 空格 。 这 类 似 于 range (5)for 循环 到 5 
(但 不 包括 5)。 

请 注意 ， 字 符 串 切片 并 没有 修改 原来 的 字符 串 。 可 以 从 一 个 变量 中 获取 切片 ， 记 录 在 另 一 
个 变量 中 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = “Hello， world! 
>>> fizz = spam[0:5] 

>>> fizz 

“He1l10 


通过 切片 并 将 结果 子 字符 串 保存 在 另 一 个 变量 中 ， 就 可 以 同时 拥有 完整 的 字符 串 和 子 字符 
串 ， 便 于 快速 、 简 单 地 访问 数据 。 


6.1.3 ”字符 串 的 in 和 not in 操作 符 


像 列表 一 样 ，in 和 not in 操作 符 也 可 以 用 于 字符 串 。 用 in 或 not in 连接 两 个 字符 串 
得 到 的 表达 式 ， 将 求 值 为 布尔 值 True 或 False。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'Hello' in ‘Hello, World' 

True 

>>> 'Hello' in ‘Hello' 

True 

>>> 'HELLO' in ‘'Hello, World' 

False 

-> 

True 

>>> 'cats' not in 'cats and dogs’ 
False 


这 些 表达 式 测试 第 一 个 字符 串 〈 精 确 匹 配 ， 区 分 大 小 写 ) 是 否 在 第 二 个 字符 串 中 。 
6.2 ”将 字符 串 放 入 其 他 字符 串 


将 字符 串 放 入 其 他 字符 串 是 编程 中 的 常见 操作 。 到 目前 为 止 ， 我 们 一 直 在 用 + 运算 符 和 字 
符 串 连接 来 执行 这 种 操作 : 


>>> name = “Al 
>>> age = 4000 
>>> "Hello，my name is ' + name + '. I am ' + str(age) + ' years 01d.” 


'Hello, my name is Al. I am 4000 years old.' 

但 是 ， 这 需要 大 量 乏 味 的 打字 输入 。 一 种 更 简单 的 方法 是 利用 “字符 串 插值 ” 其 中 字符 串 
内 的 %s 运算 符 充 当 标记 ， 并 由 字符 串 后 的 值 代替 。 字 符 串 插值 的 好 处 之 一 是 不 必 调 用 str() 
图 数 即 可 将 值 转换 为 字符 串 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> name = “Al 
>>> age = 4000 
>>> “My name is %s. I am %s years old.' % (name, age) 
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"My name is Al. I am 4000 years 01d.， 

Python 3.6 引入 了 “f 字符 串 ”， 该 字符 串 与 字符 串 插值 类 似 ， 不 同 之 处 在 于 用 花 括号 代替 
%s， 并 将 表达 式 直 接 放 在 花 括 号 内 。 类 似 原始 字符 串 ，f 字符 串 在 起 始 引 号 之 前 带 有 一 个 f 前 
级。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> name = “Al 
>>> age = 4000 

>>> f'My name is {name}. Next year I will be {age + 1}.°' 
"My name is Al. Next year I will be 4001.' 


记 住 要 包括 f 前 经， 否则 括号 和 它们 的 内 容 将 成 为 字符 串 值 的 一 部 分 ， 如 下 : 


>>> “MY name is {name}. Next year I will be {age + 1}.' 


“My name is {name}. Next year I will be {age + 1}. EE 
€ 


6.3 ”有 用 的 字符 串 方法 


一 些 字符 串 方法 会 分 析 字 符 串 或 生成 转变 过 的 字符 串 。 本 节 将 介绍 这 些 方法 ， 你 会 经 常 使 
用 它们 。 


6.3.1 字符 串 方法 upper()、lower()、isupper() 和 islower() 


upper() 和 lower() 字 符 串 方法 返回 一 个 新 字符 串 , 其 中 原 字符 串 的 所 有 字母 都 被 相应 地 
转换 为 大 写 或 小 写 。 字 符 串 中 的 非 字母 字符 保持 不 变 。 


在 交互 式 环境 中 输入 以 下 代码 : 
>>> Spam = “Hello， Wor1ldI! 
>>> Spam = Spam.Upper() 

>>> spam 

'HELLO, WORLD!' 

>>> spam = Spam,1lower() 

>>> Spam 


'hello, World! 

请 注意 ， 这 些 方法 没有 改变 字符 串 本 身 ， 而 是 返回 一 个 新 字符 串 。 如 果 你 希望 改变 原来 的 
字符 串 , 就 必须 在 该 字符 串 上 调用 upper() 或 1ower() 方 法 ,然后 将 这 个 新 字符 串 赋 给 保存 原 
来 字符 串 的 变量 。 这 就 是 为 什么 必须 使 用 spam = spam.upper()， 才 能 改变 spam 变量 中 的 
字符 串 ， 而 不 是 仅仅 使 用 spam .upper()〈( 这 就 好 比如 果 变 量 eggs 中 包含 值 10， 写 下 eggs + 
3 并 不 会 改变 eggs 变量 的 值 ， 但 是 eggs = eggs + 3 会 改变 eggs 变量 的 值 )。 

如 果 需 要 进行 与 大 小 写 无 关 的 比较 , upper() 和 lower() 方 法 就 很 有 有用。 字符 串 'great' 
和 'GREat ' 彼 此 不 相等 。 但 在 下 面 的 小 程序 中 ， 用 户 输入 Great、GREAT 或 grEAT 都 没关系 ， 
因为 字符 串 首先 被 转换 成 小 写 : 

print('How are you?') 

feeling = input() 

if feeling.lower() == 'great': 

print('I feel great too.') 


else: 
print('I hope the rest of your day is good.') 
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在 运行 该 程序 时 ， 先 显示 问题 ， 然 后 输入 变形 的 great， 如 GREat， 程 序 将 输出 I feel 
great too。 在 程序 中 加 入 代码 来 处 理 多 种 用 户 输入 或 输入 错误 的 情况 ， 例 如 大 小 写 个 一 致 ， 
这 会 让 程序 更 容易 使 用 ， 且 更 不 容易 失效 : 


How are you? 
GREat 
I feel great too. 


可 以 在 https://autbor.com/convertlowercase/ 上 查看 该 程序 的 执行 情况 。 如 果 字 符 串 中 含有 了 字 
母 ， 并 且 所 有 字母 都 是 大 写 或 小 写 ， 那 么 isupper() 和 islower() 方 法 就 会 相应 地 返回 布尔 值 
True; 否则 ， 该 方法 返回 False。 在 交互 式 环境 中 输入 以 下 代码 ， 并 注意 每 个 方法 调用 的 返回 值 : 


>>> spam = "Hello, World! 
>>> Spam.islower() 
False 

>>> Spam.isupper() 

False 

>>> 'HELLO' .isupper() 
True 

>>> “abc12345' .islower() 
True 

>>> “12345 ' .islower() 
False 

>>> '12345' .isupper() 
False 


因为 upper() 和 lower() 字 符 串 方法 本 身 返 回 字 符 串 ， 所 以 也 可 以 在 那些 返回 的 字符 串 
上 继续 调用 字符 串 方法 。 使 用 这 种 方式 编写 的 表达 式 看 起 来 就 像 方法 调用 链 。 在 交互 式 环境 中 
输入 以 下 代码 : 

pi 人 

>>> “Hel1lo' .upper().lower() 

>>> "hello' .upper() .lower() .upper() 


>>> “HELLO' .Jower() 

'hello' 

>>> “HELLO' .lower().islower() 
True 


6.3.2 isX() 字 符 串 方法 


除了 islower() 和 isupper() 方 法 , 还 有 几 个 字符 串 方 法 的 名 字 以 is 开始 。 这 些 方法 返 
回 一 个 描述 了 字符 串 特点 的 布尔 值 。 下 面 是 一 些 常 用 的 isX() 字 符 串 方法 。 

口 isalpha() 方 法 ， 如 果 字 符 串 只 包含 字母， 并 且 非 空 ， 返 回 True。 

Disalnum() 方 法 ， 如 果 字 符 串 只 包含 字母 和 数字 ， 并 且 非 空 ， 返 回 True。 

Disdecimal() 方 法 ， 如 果 字 符 串 只 包含 数字 字符 ， 并 且 非 空 ， 返 回 True。 

口 isspace() 方 法 ， 如 果 字 符 串 只 包含 空格 、 制 表 符 和 换行 符 ， 并 且 非 空 ， 返 回 True。 

D istit1le() 方 法 ， 如 果 字 符 串 仅 包含 以 大 写字 母 开 头 、 后 面 都 是 小 写字 母 的 单词 、 数 字 或 

空格 ， 返 回 True。 
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在 交互 式 环境 中 输入 以 下 代码 : 


>>> “hel1o' .isalpha() 
True 

>>> 'hello123' .isalpha() 
False 

>>> 'hello123' .isalnum() 
True 

>>> 'hello'.isalnum() 
True 

>>> “123' .isdecimal() 
True 

>>> ' '.isspace() 


>>> “This Is Title Case' .istitle() 


True 
>>> “This IS Title Case 123' .istitlel() 
True 


>>> “This Is not Title Case' .istitlel() 

False 

>>> “This Is NOT Title Case Either' .istitle() 
False 


如 果 需 要 验证 用 户 输入 ， 那 么 isX( ) 字 符 串 方法 是 有 用 的 。 例 如 ， 下 面 的 程序 反复 询问 用 
户 年 龄 和 口令 ， 直 到 他 们 提供 有 效 的 输入 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 程序 ， 保 
存 为 validateInput.py: 


while True: 
print('Enter your age:') 
age = input() 
if age.isdecimal() : 
break 
print(' Please enter a number for your age.') 


While True : 
print(' Select a new password (letters and numbers only):') 
password = input() 
if password.isalnum(): 
break 
print('Passwords can only have letters and numbers.') 


在 第 一 个 while 循环 中 ， 我 们 要 求 用 户 输入 年 龄 ， 并 将 输入 保存 在 age 中 。 如 果 age 是 
有 效 的 值 数字)， 我 们 就 跳出 第 一 个 while 循环 ， 转 网 第 二 个 循环 ， 询 问 口 令 ;， 否则， 我 们 
告诉 用 户 需 要 和 输入 数字 ， 并 再 次 要 求 他 们 输入 年 龄 。 在 第 二 个 while 循环 中 ,我 们 要 求 用 户 输 
入 口令 ， 将 用 户 的 输入 保存 在 password 中 。 如 果 输 入 的 是 字母 或 数字 ， 就 跳出 循环 ; 如 果 不 
是 ， 我 们 并 不 满意 ， 则 告诉 用 户口 令 必须 是 字母 或 数字 ， 并 再 次 要 求 他 们 输入 口令 。 

该 程序 的 输出 结果 如 下 : 


Enter your age: 

forty two 

Please enter a number for your age. 

Enter your age: 

42 

Select a new password (letters and numbers only): 
secr3t! 

Passwords can only have letters and numbers. 
Select a new password (letters and numbers only): 
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Secr3t 

可 以 在 https://autbor.com/validateinput/ 上 查看 该 程序 的 执行 情况 。 在 变量 上 调用 isdecimal() 
和 salnum() 方 法 ， 我 们 就 能 够 测试 保存 在 这 些 变 量 中 的 值 是 否 为 数字 或 字母 。 这 里 ， 这 些 方 
法 帮助 我 们 拒绝 输入 forty two， 接 受 输入 42， 拒 绝 输 入 secr3t!， 接 受 输入 secr3t。 


6.3.3 ”字符 串 方法 startswith() 和 endswith() 


如 果 startswith() 和 endswith() 方 法 所 调用 的 字符 串 以 该 方法 传 入 的 字符 串 开 始 或 结 
束 ， 那 么 返回 True; 否则 返回 False。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'Hello, world!'.startswith('Hello’) 


True 

>>> ‘Hello, world!'‘'.endswith('world!') 

True 

>>> 'abc123' .startswith('abcdef') 

False 

>>> 'abc123' .endswith('12°') 

False 

>>> 'Hello， world!'.startswith('Hello, world!') 
True 

>>> 'Hello, world!'.endswith('Hello, world! ') 


True 


如 果 只 需要 检查 字符 串 的 开始 或 结束 部 分 是 否 等 于 男 一 个 字符 串 ， 而 不 是 整个 字符 串 ， 这 
两 个 方法 就 可 以 替代 等 于 操作 符 一 ， 这 很 有 用 。 


6.3.4 字符 串 方 法 join() 和 split() 


如 果 有 一 个 字符 串 列表 ， 需 要 将 它们 连接 起 来 成 为 一 个 字符 串 ， 那 么 join() 方法 就 很 有 
用 。join() 方 法 可 在 字符 串 上 被 调用 ， 参 数 是 一 个 字符 串 列 表 ， 返 回 一 个 字符 串 。 返 回 的 字符 
串 由 传 入 列表 中 的 每 个 字符 串 连接 而 成 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


32 "sjoin(l cats’s rats's "bats’ ]) 
‘cats, rats, bats'’ 

>>> ' '.join(['My', 'name', 'is', 'Simon']) 
'My name is Simon' 

>>> “ABC ' .join(['My', 'name', 'is', ‘Simon']) 
'MyABCnameABCisABCSimon' 


请 注意 ， 调 用 join() 方 法 的 字符 串 被 插入 列表 参数 中 每 个 字符 串 的 中 间 。 例 如 ， 如 果 在 '，,' 
字符 串 上 调用 join(['cats'，'rats'，'bats'])， 返 回 的 字符 串 就 是 'cats, rats, bats'。 

要 记 住 ，join() 方 法 是 针对 一 个 字符 串 调用 的 ,， 并且 需要 传 入 一 个 列表 值 (很 容易 不 小 心 
用 其 他 的 方式 调用 它 )。split() 方 法 做 的 事情 正好 相反 : 它 针 对 一 个 字符 串 调用 ,返回 一 个 字 
符 串 列表 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'My name is Simon' .Split() 
['My', 'name', 'is', 'Simon'] 


默认 情况 下 ， 字 符 串 'My name is Simon' 按 照 各 种 空白 字符 (诸如 空格 、 制 表 符 或 换行 
从) 分 隔 。 这 些 宅 白字 符 不 包含 在 返回 列表 的 字符 串 中 。 也 可 以 向 split() 方 法 传 入 一 个 分 隔 
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字符 串 ， 指 定 它 按照 不 同 的 字符 串 分 隔 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'MyABCnameABCisABCSimon' .split('ABC') 
['My', 'name', 'is', 'Simon'] 

>>> “My name is Simon' .split('m') 

['My na'，'e is Sti'，'on':] 


一 个 常见 的 splLit () 用 法 是 按照 换行 符 分 隔 多 行 字符 串 的 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = '''Dear Alice, 

How have you been? I am fine. 
There is a container in the fridge 
that is labeled “Milk Experiment". 


Please do not drink it. 

Sincerely， 

Bob' ' 

>>> spam.split('\n’) 

['Dear Alice,', 'How have you been? I am fine.', 'There is a container in the 
fridge', 'that is labeled "Milk Experiment".', '', 'Please do not drink it.', 
‘Sincerely,', 'Bob'] 


问 split() 方 法 传 入 参数 '\n'， 按 照 换 行 符 分 隔 变 量 中 存储 的 多 行 字 符 串 ， 然 后 返回 列 


表 中 的 每 个 表 项 (对 应 于 字符 串 中 的 一 行 )。 
6.3.5 ”使 用 partition() 方 法 分 隔 字 符 串 


partition() 字 符 串 方法 可 以 将 字符 串 分 成 分 隔 符 字 符 串 前 后 的 文本 。 这 个 方法 在 调用 


它 的 字符 串 中 搜索 传 入 的 分 隔 符 字符 串 , 然后 返回 3 个 子 字符 串 的 元 组 , 包含 “之 前 的 文本 ” 
“分 隔 符 ” 和 “之 后 的 文本 ”。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> 'Hello, world!' .partition('w') 
"HOllGs “3 "Wy lidt"y 

>>> 'Hello, world!' .partition('world ' ) 
全 有 人 


如 果 传 递 给 partition() 方 法 的 分 隔 符 字 符 串 在 partition() 调 用 的 字符 串 中 多 次 出 
， 则 该 方法 仅 在 第 一 次 出 现 处 分 隔 字 符 串 : 


>>> 'Hello, world!' .partition('o') 
(Re "0 “sa Worlidl 


如 果 找 不 到 分 隔 符 字符 串 ， 则 返回 的 元 组 中 的 第 一 个 字符 串 将 是 整个 字符 串 ， 而 其 他 两 个 
字符 


串 为 空 ; 
>>> 'Hello, world!' .partition( 'XYZ ') 
.LO Word “ss”* 


可 以 利用 多 重 赋值 技巧 将 3 个 返回 的 字符 串 赋 给 3 个 变量 : 


>>> before, sep, after = 'Hello, world!' .partition(' 二 
>>> before 

“Hel10 ，， 

>>> after 

“World 


每 当 你 需要 特定 分 隔 符 字符 串 之 前 的 文本 、 该 特定 分 隅 符 字 符 串 以 及 它 之 后 的 部 分 时 ， 都 
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可 以 用 partition() 方 法 分 隔 字符 串 。 
6.3.6 ”用 rjust()、ljust() 和 center() 方 法 对 齐 文 本 


rjust() 和 1just() 字 符 串 方法 返回 调用 它们 的 字符 串 的 填充 版 本 , 通过 插入 空格 来 对 齐 
文本 。 这 两 个 方法 的 第 一 个 参数 是 一 个 整数 ， 代 表 长 度 ， 用 于 对 齐 字符 串 。 在 交互 式 环境 中 输 
入 以 下 代码 : 


>>> 'Hello' .rjust(10) 
Hello' 

>>> “Hello' .rjust(20) 
Hello' 

>>> “Hello World' .rjust(20) 
Hello World' 

>>> 'Hello' .lijust(10) 
‘Hello 


'Hello' .rjust(10) 是 说 , 我 们 希望 右 对 齐 , 将 'Hello' 放 在 一 个 长 度 为 10 的 字符 串 中 。 
'Hello' 有 5 个 字符 ， 所 以 左边 会 加 上 5 个 空格 , 得 到 一 个 10 个 字符 的 字符 串 ， 实现 'Hello' 
右 对 齐 。 

rjust() 和 1just() 方 法 的 第 二 个 可 选 参数 将 指定 一 个 填充 字符 ， 用 于 取代 空格 字符 。 在 
交互 式 环境 中 输入 以 下 代码 : 

>>> 'Hello'.rjust(20, '*') 


1 实 奖 实 实 宙 突 实 实 奖 实 次 万 妇 雪 Hel]10 1 
>>> “Hel1o' .1just(20， '-') 


center() 字 符 串 方法 与 1just() 和 rjust() 字 符 串 方法 类 似 ， 但 它 让 文本 居中 ， 而 不 是 
左 对 齐 或 右 对 齐 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 'Hello' .center(20) 
Hello . 
>>> 'Hello'.center(20, '=') 


如 果 和 需要 输出 表格 式 数据 ， 并 留 出 正确 的 空格 ， 这 些 方法 就 特别 有 用 。 打 开 一 个 新 的 文件 
编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 picnicTable.py: 
def printPicnic(itemsDict, leftWidth, rightWidth): 
print('PICNIC ITEMS' .center(leftWidth + rightWidth, '-')) 


for k, v in itemsDict,.items( ) : 
print(k.ljust(leftWidth, '.') + str(v).rjust(rightWidth)) 


picnicItems = i{'sandwiches': 4, 'apples': 12, 'cups': 4, ‘cookies': 8000} 

printPicnic(picnicIitems, 12, 5) 

printPicnic(picnicItems, 20, 6) 

可 以 在 https://autbor.com/picnictable/ 上 查看 该 程序 的 执行 情况 。 在 这 个 程序 中 , 我 们 定义 了 
printPicnic() 方 法 ， 它 接收 一 个 信息 的 字典 ， 并 利用 center()、1Ljust() 和 rjust() 方 
法 ， 以 一 种 干净 、 对 齐 的 表格 形式 显示 这 些 信息 。 

我 们 传递 给 printPicnic() 方 法 的 字典 是 picnicItems。 在 picnicItems 中 ， 我 们 有 
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4 个 三 明治 、12 个 苹果 、4 个 杯子 和 8000 块 饼干 。 我 们 希望 将 这 些 信息 组 织 成 两 行 ， 项 的 名 字 
在 左边 ， 数 量 在 右边 。 

要 做 到 这 一 点 ， 就 需要 决定 左 列 和 右 列 的 宽度 。 与 字典 一 起 ， 我 们 将 这 些 值 传 递 给 
printPicnic() 方 法 。 

printPicnic() 方 法 接收 一 个 字典 ，leftWidth 表示 表 的 左 列 宽度 ，rightWidth 表示 
表 的 右 列 宽度 。 它 输出 标题 PICNIC ITEMS， 在 表 上 方 居中 。 然 后 它 遍历 字典 ， 每 行 输出 一 
个 键 - 值 对 。 键 左 对 齐 ， 填 充 圆 点 ， 值 右 对 齐 ， 填 充 空 格 。 

在 定义 printPicnic() 方 法 后 ,我 们 定义 了 字典 picnicItems, 并 调用 printPicnic() 
方法 两 次 ， 传 入 表 左 右 列 的 宽度 。 

运行 该 程序 ， 表 格 就 会 显示 两 次 。 第 一 次 左 列 宽度 是 12 个 字符 , 右 列 宽度 是 5 个 字符 。 第 
二 次 它们 分 别 是 20 个 和 6 个 字符 。 代 码 如 下 : 


---PICNIC ITEMS-- 


sandwiches.. 4 
RDDLOS ies 12 
GUase 4 
COOKi0S.、 os 8000 
------- PICNIC ITEMS------- 
sandwicheSs.......... 4 
i 12 
DE 4 
CoORiDMy sd 8000 


利用 rjust()、1just() 和 center() 方 法 能 确保 字符 串 对 齐 ， 即 使 你 不 清楚 字符 串 有 多 
少 字 符 。 


6.3.7 用 strip()、rstrip() 和 Istrip() 方 法 删除 空白 字符 


有 时 候 你 希望 删除 字符 串 左边 、 右 边 或 两 边 的 空白 字符 (空格 、 制 表 符 和 换行 符 )。strip() 
字符 串 方法 将 返回 一 个 新 的 字符 串 , 它 的 开头 和 末尾 都 没有 空白 字符 。 lstrip() 和 rstrip() 
方法 将 相应 删除 左边 或 右边 的 空白 字符 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Spam = " Hello, World 
>>> Spam.strip() 
‘Hello, World'’ 
>>> spam.lstrip() 
‘Hello, World 
>>> spam.rstrip() 
Hello, World' 


strip() 方 法 可 带 有 一 个 可 选 的 字符 串 参 数 , 用 于 指定 两 边 的 哪些 字符 应 该 删除 。 在 交互 式 环 
境 中 输入 以 下 代码 : 
>>> Spam = 'SpamSpamBaconSpamEggsSpamSpam' 


>>> Spam.strip('ampS') 
'BaconSpamEggs ' 


向 strip() 方 法 传 入 参数 'ampS'， 告诉 它 在 变量 中 存储 的 字符 串 两 端 ， 删除 出 现 的 a、m、 
p 和 大 写 的 S。 在 传 入 strip() 方 法 的 字符 串 中 ,字符 的 顺序 并 不 重要 : strip('ampS' ) 做 的 
事情 和 strip('mapS' ) 或 strip('Spam') 一 样 。 
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6.4 使 用 ord() 和 chr() 函 数 的 字符 的 数值 


计算 机 将 信息 存储 为 字 节 ( 二 进 制 数 字 串 ), 这 意味 着 我 们 要 能 够 将 文本 转换 为 数字 。 因此 ， 
每 个 文本 字符 都 有 一 个 对 应 的 数字 值 ， 称 为 “Unicode 代码 点 ”。 例 如 ， 数 字 代 码 点 的 65 表示 
'A' ,52 表示 '4' ,33 表示 ' !'。 可 以 用 ord( ) 函数 获取 一 个 单字 符 字 符 串 的 代码 点 , 用 chr() 
函数 获取 一 个 整数 代码 点 的 单字 符 字 符 串 。 在 交互 式 环境 中 输入 以 下 内 容 : 


> Pt A 

65 

>>> ord('4' 上 

52 

>>> ord('!') 

33 

>>> chr(65) 

a 

当 你 需要 对 字符 进行 数学 运算 或 排序 时 ， 这 两 个 函数 非常 有 用 : 
>>> ord('B') 

66 

>>% "OFAY < Drad(B’) 
True 

>>> chr(ord('A')) 

A 


>>> chr(ord('A') + 1) 
'B!' 


关于 Unicode 和 代码 点 还 有 很 多 内 容 ， 但 是 这 些 细节 不 在 本 书 的 讨论 范围 之 内 。 如 果 你 想 
了 解 更 多 信息 ， 建 议 观 看 Ned Batchelder 在 2012 年 的 PyCon 演讲 “Pragmatic Unicode, or How Doy7 
Stop the Pain?”。 


6.5 用 pyperclip 模块 复制 粘贴 字符 串 


pyperclip 模块 有 copy() 和 paste() 函 数 , 可 以 癌 计 算 机 的 剪贴 板 发 送 文本 或 从 它 接收 
文本 。 将 程序 的 输出 发 送 到 前 贴 板 ， 使 它 很 容易 被 粘贴 到 邮件 、 文 字 处 理 程序 或 其 他 软件 中 。 


在 Mu 之 外 运行 Python 脚本 


上 到 目前 为 止 ， 你 一 直 在 使 用 Mu 中 的 交互 式 环境 和 文件 编辑 器 来 运行 Python 脚本 。 但 
是 ， 在 每 次 运行 一 个 脚本 时 都 要 打开 Mu 和 Python 脚本 ， 这 样 不 方便 。 好 在 ， 有 一 些 快捷 


方式 可 以 让 你 更 容易 地 建立 和 运行 Python 脚本 。 这 些 步骤 在 Windows 操作 系统 、macOS 
和 Linux 操作 系统 上 稍 有 不 同 ， 但 每 一 种 都 在 附录 B 中 进行 了 描述 。 请 翻 到 附录 也， 学 习 
如 何方 便 地 运行 pe 脚本 ， 并 能 够 向 它们 传 遂 命 信行 参数 (使 用 Mu 时 ， 不 能 向 程序 
-传递 命令 行 参数 。) 


pyperclip 模块 不 是 Python 自 带 的 。 要 安装 它 , i 清 参考 附录 A 中 安装 第 三 方 模块 的 指南 。 
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安装 pyperclip 模块 后 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import pyperclip 

>>> pyperclip.copy('Hello, world!') 
>>> pyperclip.paste() 

'Hello, world!' 


当然 ， 如 果 你 的 程序 之 外 的 某 个 程序 改变 了 剪贴 板 的 内 容 ， 那 么 paste( ) 函数 就 会 返回 改 后 的 
内 容 。 例 如 ， 如 果 我 将 这 句 话 复制 到 剪贴 板 ， 然 后 调用 paste ( ) 函数 ， 看 起 来 就 会 像 这 样 : 


>>> pyperclip .paste() 
'For example, if I copied this sentence to the clipboard and then called 
paste(), it would look like this:' 


6.6 项目 : 使 用 多 剪贴 板 自 动 回复 消息 


如 果 你 曾 用 类 似 的 措辞 回复 大 量 的 电子 邮件 ,那么 可 能 不 得 不 完成 很 多 重复 的 输入 操作 。 
也 许 你 保留 了 包含 这 些 措辞 的 文本 文档 ， 可 以 用 剪贴 板 轻松 地 复制 和 粘贴 它们 。 但 是 你 的 前 
贴 板 一 次 只 能 存储 一 封 邮件 ， 这 不 是 很 方便 。 使 用 存储 多 种 措辞 的 程序 ， 我 们 可 以 让 这 个 过 
程 更 容易 些 。 


第 1 步 : 程序 设计 和 数据 结构 


你 希望 用 一 个 命令 行 参数 来 运行 这 个 程序 ， 该 参数 是 一 个 关键 字 短 语 ， 例 如 agree 或 
busy。 与 这 个 关键 字 短 语 相 关 的 消息 将 被 复制 到 剪贴 板 , 这 样 用 户 就 能 将 它 粘贴 到 电子 邮件 中 。 
通过 这 种 方式 ， 用 户 可 以 发 送 很 长 而 复杂 的 消息 ， 又 不 需要 重新 输入 它们 。 
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打开 一 个 新 的 文件 编辑 器 窗口 ， 将 该 程序 保存 为 mclip.py。 程 序 开始 需要 有 一 个 ## 行 ( 参 
见 附录 B)， 并 且 应 该 写 一 些 注 释 来 简单 描述 该 程序 。 因 为 你 希望 关联 每 一 段 文 本 和 它 对 应 的 关 
键 字 短语 ， 所 以 可 以 将 这 些 作 为 字符 串 保存 在 字典 中 。 字 和 典 将 是 组 织 你 的 关键 字 和 文本 的 数据 
结构 。 让 你 的 程序 看 起 来 像 下 面 这 样 : 


# 1 python3 
# mclip.py - A multi-clipboard progranm . 


TEXT = {°' agree *: "**"Yes, I agree,. That sounds fine to me.”""", 
'busy': """Sorry, can we do this later this week or next week?""", 
‘upsell': """Would you consider making this a monthly donation?"""} 
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第 2 步 : 处 理 命令 行 参数 


命令 行 参数 将 存储 在 变量 sys .argv 中 (关于 如 何在 程序 中 使 用 命令 行 参数 ， 更 多 信息 请 
参见 附录 B)。sys.argv 变量 的 列表 中 的 第 一 项 总 是 一 个 字符 串 ， 它 包含 程序 的 文件 名 
('mclip.py' )。 第 二 项 应 该 是 第 一 个 命令 行 参数 。 对 于 这 个 程序 ， 这 个 参数 就 是 你 想 要 的 消 
息 对 应 的 关键 字 短语 。 因 为 命令 行 参数 是 必需 的 ， 所 以 如 果 用 户 忘 记 添 加 参数 (也 就 是 说 ， 如 
果 sys.argv 变量 的 列表 中 少 于 两 个 值 )， 就 显示 用 法 信息 。 让 你 的 程序 看 起 来 像 下 面 这 样 : 


#! python3 
# mclip.py - A multi-clipboard program. 


TEXT = {'agree': """Yes, I agree. That Sounds fine to me.""", 


'busy': """Sorry, can we do this later this week or next week?""", 
'upsell’': """Would you consider making this a monthly donation?"""} 
import sys 


if len(sys.argv) < 2: 
print('Usage: python mclip.py [keyphrase] - copy phrase text') 
Sys .exit() 


keyphrase = sys.argv[1] # first command line arg is the keyphrase 
第 3 步 : 复制 正确 的 短语 


既然 账户 名 称 已 经 作为 字符 串 保 存在 变量 keyphrase 中 ， 你 就 需要 看 看 它 是 不 是 TEXT 
字典 中 的 键 。 如 果 是 ， 可 利用 pyperclip.copy() 函 数 将 该 键 的 值 复制 到 剪贴 板 (既然 用 到 了 
pyperclip 模块 ， 就 需要 导入 它 )。 请 注意 ， 实 际 上 不 需要 keyphrase 变量 ， 你 可 以 在 程序 
中 所 有 使 用 keyphrase 的 地 方 直接 使 用 sys .argv[1]。 但 名 为 keyphrase 的 变量 更 可 读 ， 
不 像 是 神秘 的 sys.argv[1]。 


人 大 > 和 

让 你 的 程序 看 起 来 像 这 样 : 

#! python3 

# mclip.py - A multi-clipboard progranm . 

TEXT = f{'agree': """Yes, I agree. That sounds fine to me.""", 
'busy': """Sorry, can we do this later this week or next week?""", 
:Upsel1l1': """Would you consider making this a monthly donation?"""} 


import sys, pyperclip 

if len(sys.argv) < 2: 
print('Usage: py mclip.py [keyphrase] - copy phrase text') 
sys.exit() 


keyphrase = sys.argv[1] # first command line arg is the keyphrase 


if keyphrase in TEXT: 

pyperclip.copy (TEXT[keyphrase]) 

print('Text for ' + keyphrase + ' copied to clipboard.') 
else: 

print('There 工 S no text for ' + keyphrase) 
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这 段 新 代 码 可 在 TEXT 字典 中 查找 关键 字 短 语 。 如 果 该 关键 字 短 语 是 字典 中 的 键 ， 那 么 我 
们 就 取得 该 键 对 应 的 值 ， 并 将 它 复制 到 剪贴 板 ， 然 后 输出 一 条 消息 ， 说 我 们 已 经 复制 了 该 值 。 
否则 ， 我 们 输出 一 条 消息 ， 说 没有 这 个 名 称 的 关键 字 短语 。 

这 就 是 完整 的 脚本 。 利 用 附录 B 中 的 指导 来 轻松 地 启动 命令 行程 序 ， 现 在 你 就 有 了 一 种 快 
速 的 方式 来 将 消息 复制 到 剪贴 板 。 如 果 需 要 用 新 消息 更 新 该 程序 ， 就 必须 修改 源 代 码 的 TEXT 
字典 中 的 值 。 

在 Windows 操作 系统 上 ， 你 可 以 创建 一 个 批 处 理 文件 ， 利 用 快捷 键 win-R 运行 窗口 来 运 
行 这 个 程序 《关于 批 处 理 文 件 的 更 多 信息 ， 参 见 附 录 B)。 在 文件 编辑 器 中 输入 以 下 代码 ， 将 其 
保存 为 mclip.bat， 并 放 在 C:\Windows 目录 下 : 


epy.exe C:\path to file\mclip.py %* 
@pause 


有 了 这 个 批 处 理 文 件 ， 在 Windows 操作 系统 上 运行 多 前 贴 板 程序 ， 就 只 要 按 win-R 快捷 
键 ， 再 输入 mclip < 关键 字 短语 > 即 可 。 


6.7 项 目 : 在 Wiki 标记 中 添加 无 序列 表 


在 编辑 一 篇 维基 百科 的 文章 时 ， 你 可 以 创建 一 个 无 序列 表 ， 即 让 每 个 表 项 占据 一 行 ， 并 在 
前 面 放置 一 个 星 号 。 假 设 你 有 一 个 非常 大 的 列表 ， 和 希望 在 前 面 添加 星 号 ， 你 可 以 在 每 一 行 开始 
处 输入 这 些 星 号 ， 一 行 接 一 行 ， 也 可 以 用 一 小 段 Python 脚本 ， 将 这 个 任务 自动 化 。 

bulletPointAdder.py 脚本 将 从 剪贴 板 中 取得 文本 ， 并 在 每 一 行 开 始 处 加 上 星 号 和 空格 ， 然 后 
将 这 段 新 的 文本 贴 回 剪 贴 板 。 例 如 ， 如 果 我 将 下 面 的 文本 复制 到 前 贴 板 〈 取 自 维基 百科 的 文章 
“List of Lists of Lists” ): 


Lists of animals 

Lists of aquarium life 

Lists of biologists by author abbreviation 
Lists of cultivars 


然后 运行 bulletPointAdder.py 程序 ， 剪 贴 板 中 就 会 包含 下 面 的 内 容 : 


* Lists of animals 

* Lists of aquarium life 

* Lists of biologists by author abbreviation 
* Lists of cultivars 


这 段 前 面 加 了 星 号 的 文本 ， 就 可 以 粘贴 回 维基 百科 的 文章 中 ， 成 为 一 个 无 序列 表 。 
第 1 步 : 从 剪贴 板 中 复制 和 粘贴 


你 希望 bulletPointAdder.py 程序 完成 以 下 任务 。 

1. 从 剪贴 板 粘贴 文本 。 

2. 对 它 做 一 些 处 理 。 

3. 将 新 的 文本 复制 到 剪贴 板 。 

第 2 个 任务 需要 一 点 技巧 ， 但 第 1 个 任务 和 第 3 个 任务 相当 简单 ， 它 们 只 是 利用 了 
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pyperclip. copy() 和 pyperclip.paste() 函 数 。 现 在 ， 我 们 先 写 出 第 1 个 任务 和 第 3 个 任务 
的 代码 部 分 。 输 入 以 下 代码 ， 将 程序 保存 为 bulletPointAdderpy: 


#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 


import pyperciip 
text = pyperclip.pastel() 


# TODO: Separate lines and add stars. 


pyperclip.copy (text) 


TODO 注释 是 提醒 你 最 后 应 该 完成 这 部 分 程序 。 下 一 步 实 际 上 就 是 这 个 程序 的 实现 部 分 。 


第 2 步 : 分 离 文 本 中 的 行 ， 并 添加 星 号 


调用 pyperclip.paste() 函 数 将 返回 前 贴 板 上 的 所 有 文本 ， 结 果 是 一 个 大 字符 串 。 如 果 
我 们 使 用 “List of Lists of Lists” 的 例子 ， 保 存在 text 中 的 字符 串 就 像 这 样 : 


'Lists of animals\nLists of aquarium life\nLists of biologists by author 
abbreviation\nLists of cultivars' 


在 输出 到 剪贴 板 或 从 剪贴 板 粘 贴 时 ,该 字符 串 中 的 \n 换行 符 让 它 能 显示 为 多 行 。 在 这 一 个 
字符 串 中 有 许多 “ 行 >。 想 要 在 每 一 行 开始 处 添加 一 个 星 号 ， 你 可 以 编写 代码 ， 碍 找 字 符 串 中 每 
个 \n 换行 符 ， 然 后 在 它 后 面 添加 一 个 星 号 。 但 更 容易 的 做 法 是 ， 使 用 split ( ) 方 法 得 到 一 个 字 
符 串 的 列表 ， 其 中 每 个 表 项 就 是 原来 字符 串 中 的 一 行 ， 然 后 在 列表 中 每 个 字符 串 前 面 添 加 星 号 。 

让 程序 看 起 来 像 这 样 : 


#! python3 
# bulletPointAdder.py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 


import pyperclip 
text = pyperclip.paste!() 


# Separate lines and add stars. 

lines = text.split('\n') 

for i in range(len(lines)): # loop through all indexes in the "lines" list 
lines[i] = '* ' + lines[i] # add star to each string in "lines" list 


ee ee ER SO 

我 们 按 换 行 符 分 隅 文本 ， 得 到 一 个 列表 ， 其 中 每 个 表 项 是 文本 中 的 一 行 。 我 们 将 列表 保存 
在 lines 中 ， 然 后 遍历 lines 中 的 每 个 表 项 。 对 于 每 一 行 ， 我 们 在 开始 处 添加 一 个 星 号 和 一 
个 空格 。 现 在 lines 中 的 每 个 字符 串 都 以 星 号 开始 。 


第 3 步 : 连接 修改 过 的 行 


lines 列表 现在 包含 修改 过 的 行 ， 每 行 都 以 星 号 开始 。 但 pyperclip.copy() 函 数 需 要 
一 个 字符 串 ， 而 不 是 字符 串 的 列表 。 划 得 到 这 个 字符 串 ， 就 要 将 Lines 传递 给 join() 方 法 ， 
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连接 列表 中 的 字符 串 。 让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# bulletPointAdder .py - Adds Wikipedia bullet points to the start 
# of each line of text on the clipboard. 


import pyperclip 
text = pyperclip.pastel() 


# Separate lines and add stars . 

lines = text.split('\n') 

for i in range(len(lines)): # loop through all indexes for “lines" list 
lines[i] = '* "+ lines[i] # add star to each string in “lines" list 

text = '\n'.ijoin(lines) 

pyperclip.copy (text) 


运行 这 个 程序 ， 它 将 用 新 的 文本 取代 剪贴 板 上 的 文本 ， 新 的 文本 每 一 行 都 以 星 号 开始 。 现 i 
在 程序 完成 了 ， 可 以 在 前 贴 板 中 复制 一 些 文本 来 试 着 运行 它 。 

即使 不 需要 自动 化 这 样 一 个 专门 的 任务 ， 你 也 可 能 想 要 自动 化 某 些 其 他 类 型 的 文本 操作 ， 
如 删除 每 行 末尾 的 空格 ， 或 将 文本 转换 成 大 写 或 小 写 。 不 论 你 的 需求 是 什么 ， 都 可 以 使 用 前 贴 
板 作为 输入 和 输出 。 


6.8 ”小 程序 Pig Latin 


Pig Latin 是 一 种 傻 乎 平 的 、 可 伪造 的 语言 ， 它 会 改变 英语 单词 。 如 果 单 词 以 元 音 开 头 ， 就 
在 单词 末尾 添加 yay。 如 果 单 词 以 辅音 或 辅音 簇 〈( 例 如 ch 或 gr) 开头 ， 那 么 该 辅音 或 辅音 簇 
会 移 至 单词 的 末尾 ， 然 后 加 上 ay。 

让 我 们 编写 一 个 Pig Latin 程序 ， 该 程序 将 输出 如 下 内 容 : 


Enter the English message to translate into Pig Latin: 
My name iSs AL SWEIGART and I am 4,000 years old. 
Ymay amenay isyay ALYAY EIGARTSWAY andyay Iyay amyay 4,000 yearsyay oldyay. 


该 程序 的 工作 原理 是 用 本 章 介绍 的 方法 更 改 字符 串 。 在 文件 编辑 器 中 输入 以 下 源 代码 ， 并 
将 文件 为 存 为 pigLat.py: 


# English to Pig Latin 
print('Enter the English message to translate into Pig Latin:') 
message = input() 


VOWELS = 和 2 2 ee Os "yy ) 


pigLatin = [] # A list of the words in Pig Latin. 
for word in message.split(): 
# Separate the non-letters at the start of this word: 
prefixNonLetters = "" 
while len(word) > 0 and not word[0].isalphal(): 
prefixNonLetters += word[0] 
word = word[1:] 
if len(word) == 0: 
pigLatin.append(prefixNonLetters) 
continue 


# Separate the non-letters at the end of this word: 
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suffixNonLetters = "'"' 
while not word[-1].isalpha() : 


suffixNonLetters += word[-1] 
word = word[:-1] 


# Remember if the word was in uppercase or title case. 
wasUpper = word.isupper() 
wasTitle = word.istitlel() 


word = word.lower() # Make the word lowercase for translation. 


# Separate the consonants at the start of this word: 
prefixConsonants = "" 
while len(word) > 0 and not word[0] in VOWELS: 
prefixConsonants += word[0] 
word = word[1:] 


# Add tne Pig Latin ending to the word: 


if prefixConsonants != "': 
word += prefixConsonants + “ay 
else: 


word += 'yay' 


# Set the word back to uppercase or title case: 
if wasUpper: 

word = word.upper() 
if wasTitle: 

word = word.titlel() 


# Add the non-letters back to the start or end of the word. 
pigLatin.append(prefixNonLetters + word + suffixNonLetters) 


# Join all the words back together into a single string: 
print(' '.join(pigLatin)) 


让 我 们 逐 行 来 看 这 段 代 码 ， 从 头 开始 : 


# English to Pig Latin 
print('Enter the English message to translate into Pig Latin:') 
message = input() 


LO CR 

首先 ， 要 求 用 户 输入 英文 文本 以 翻译 成 Pig Latin。 男 外 ， 创 建 一 个 常数 ， 将 每 个 小 写 的 元 
音字 母 (和 y) 保存 为 字符 串 元 组 。 稍 后 将 在 程序 中 使 用 它 。 

接 下 来 ， 创 建 pigLatin 变量 ， 用 来 存储 翻译 好 的 Pig Latin 单词 : 


pigLatin = [] # A list of the words in Pig Latin. 
for word in message.split(): 
# Separate the non-letters at the start of this word: 
prefixNorLetters = "' 
while len(word) > 0 and not word[0].isalphal(): 
prefixNonLetters += word[0] 
word = word[1:] 
if len(word) == 
pigLatin.append(prefixNonLetters ) 
continue 


我 们 需要 将 每 个 单词 单独 作为 一 个 字符 串 ， 因 此 调用 message.split() 方 法 以 获得 单词 
列表 ， 并 将 其 当 作 单独 的 字符 串 。 字 符 串 'My name is AL SWEIGART and I am 4,000 years 
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01d.' 会 导致 split() 方 法 返回 ['My'，'name'，is'，'AL'，'SWEIGART'，'and'，'IT'， 
a 3 000 YES OU 

我 们 需要 删除 每 个 单词 开头 和 结尾 的 所 有 非 字 母 字 符 ， 使 得 像 'o1d.' 这 样 的 字符 串 转 换 
为 '0ldyay .'， 而 不 是 '01d .yay'。 我 们 将 这 些 非 字 母 字 符 保存 到 名 为 prefixNonLetters 
的 变量 中 。 


# Separate the non-letters at the end of this word: 
suffixNonLetters = '!' 
while not word[-1] .isalpha():- 

suffixNonLetters += word[-1] 

word = word[:-1] 


在 单词 的 第 一 个 字符 上 调用 isalpha( ) 方 法 的 循环 确定 是 否 应 该 从 单词 中 删除 一 个 字符 ， 
并 将 其 连接 到 prefixNonLetters 的 末尾 。 如 果 整 个 单词 是 由 非 字 母 字 符 组 成 的 ， 例 如 
'4,000'， 那 么 我 们 可 以 简单 地 将 其 附加 在 pigLatin 列表 中 ， 然 后 继续 对 下 一 个 单词 进行 翻 
译 。 我 们 还 需要 保存 单词 字符 串 末尾 的 非 字 母 字符 。 这 段 代 码 类 似 于 上 一 个 循环 。 

接 下 来 ， 我 们 将 确保 程序 能 够 记 住 该 单词 是 全 大 写 还 是 首 字 母 大 写 ， 以 便 能 够 在 将 单词 翻 
译 成 Pig Latin 后 将 其 恢复 : 


# Remember if the word was in uppercase or title case. 
wasUpper = word.isupper() 
wasTitle = word.istitlel() 


word = word.lower() # Make the word lowercase for translation. 


对 于 for 循环 中 的 其 余 代码 ， 我 们 将 使 用 小 写 的 word。 
要 将 sweigart 这 样 的 单词 转换 为 eigart-sway， 我 们 需要 删除 单词 开头 的 所 有 辅音 : 


# Separate the consonants at the start of this word: 
prefixConsonants = "'' 
while len(word) > 0 and not word[0] in VOWELS: 
prefixConsonants += word[0] 
word = word[1:] 


我 们 使 用 的 循环 类 似 于 从 单词 开头 删除 非 字 母 字符 的 循环 ， 只 是 现在 我 们 要 提取 辅音 ， 并 
将 其 存储 到 名 为 prefixConsonants 的 变量 中 。 
如 果 单 词 的 开头 有 辅音 ， 那 么 它们 现在 在 prefixConsonants 中 ， 我 们 应 该 将 该 变量 和 
字符 串 'ay ' 连 接 到 单词 的 末尾 。 和 否则, 我们 可 以 假设 单词 以 元 音 开 头 ， 此 时 只 需要 连接 ' yay ': 
# Add the Pig Latin ending to the word : 
if prefixConsonants != 和 
word += prefixConsonants + 'ay' 


else: 
word += 'yay' 


回想 一 下 ， 我 们 使 用 word = word.1lower() 将 word 设置 为 小 写 形式 。 如 果 单 词 最 初 是 全 大 
写 或 首 字母 大 写 的， 那么 这 段 代码 会 将 单词 转换 回 原来 的 大 小 写 形式 : 

# Set the word back to uppercase or title case: 

if wasUpper: 


word = word.upper() 
if wasTitle: 
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word = wofd.title() 
在 for 循环 的 末尾 ， 我 们 将 该 单词 及 其 最 初 带 有 的 任何 非 字母 前 级 或 后 级 附加 到 
pigLatin 列表 中 : 


# Add the non-letters back to the start or end of the word . 
pigLatin.append(prefixNonLetters + word + suffixNonLetters) 


# Join all the words back together into a Single string: 
print(' '.join(pigLatin)) 


这 个 循环 完成 后 ， 我 们 通过 调用 join() 方 法 将 字符 串 列表 组 合 为 一 个 字符 串 。 这 个 字符 
串 传递 给 print()， 并 在 屏幕 上 显示 我 们 的 Pig Latin。 


86.9 小结 


文本 是 常见 的 数据 形式 ，Python 自 带 了 许多 有 用 的 字符 串 方法 ， 用 来 处 理 保存 在 字符 串 中 
的 文本 。 在 你 写 的 每 个 Python 程序 中 ， 几 乎 都 会 用 到 索引 、 切 片 和 字符 串 方 法 。 

现在 你 写 的 程序 不 太 复杂 ， 因 为 它们 没有 图 形 用 户 界 面 ， 没 有 图 像 和 彩色 的 文本 。 到 目前 
为 止 ， 你 都 是 在 利用 print() 显 示 文本 , 利用 input() 让 用 户 输入 文本 。 但 是， 用 户 可 以 通过 
剪贴 板 快速 输入 大 量 的 文本 。 这 种 功能 提供 了 一 种 有 用 的 编程 方式 ， 可 以 操作 大 量 的 文本 。 这 
些 基于 文本 的 程序 可 能 没有 内 亮 的 窗口 或 图 形 ， 但 它们 能 很 快 完成 大 量 有 用 的 工作 。 

操作 大 量 文本 的 另 一 种 方式 是 直接 从 硬盘 读 写 文件 。 在 第 9 章 中 你 将 学 习 如 何 用 Python 来 
做 到 这 一 点 。 

这 几乎 涵盖 了 Python 编程 的 所 有 基本 概念 。 在 本 书后 面 的 章节 中 ,你 将 继续 学 习 一 些 新 概 
念 ， 但 现在 你 已 经 足够 了 解 Python， 可 以 开始 编写 一 些 让 任务 自动 化 的 有 用 程序 了 。 如 果 你 希 
望 看 到 使 用 到 目前 为 止 所 学 的 基本 概念 构建 的 简短 的 Python 程序 的 集合 ， 请 在 GitHub 中 搜索 
asweigart/pythonstdiogames。 py eed de mii he 然后 进行 一 些 修改 ， 看 看 它们 如 
何 影响 程序 的 行为 。 了 解 了 程序 的 工作 原理 之 后 ， 请 尝试 从 头 开始 创建 程序 。 你 无 须 完全 重新 

创建 源 代码 ， 只 需要 关注 程序 做 了 什么 ， 而 不 需要 关注 程序 是 怎么 做 的 。 

你 可 能 认为 你 还 没有 足够 的 Python 知识 来 完成 诸如 下 载 网 页 、 更 新 电子 表格 或 发 送 文 本 消 
息 之 类 的 事情 ， 和 但 这 就 是 Python 模块 的 作用 。 这 些 由 其 他 程序 员 编 写 的 模块 提供 了 一 些 函 数 ， 
让 你 能 轻松 完成 所 有 这 些 事情 。 因 此 ， 接 下 来 让 我 们 学 习 如 何 编写 真实 的 程序 来 执行 有 用 的 自 
动 化 任务 。 


6.10 习题 


什么 是 转 义 字符 ? 

转 义 字符 \n 和 \t 代表 什么 ? 

如 何在 字符 串 中 放 入 一 个 倒 斜 杠 字 符 \? 

. 字符 串 "Howl's Moving Castle" 是 有 效 字 符 串 。 为 什么 单词 中 的 单 引号 没有 转 义 ， 
却 没有 问题 ? 


JJ 上 D 一 


上 
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5. 如 果 你 不 希望 在 字符 串 中 加 入 \n， 该 怎样 写 一 个 带 有 换行 的 字符 串 ? 
6. 下 面 的 表达 式 分 别 求 值 为 什么 ? 

'Hello world!'[1] 

'Hello world!'[0:5] 

'Hello world!'[:5] 

'Hello world!'[3:] 

下 面 的 表达 式 分 别 求 值 为 什么 ? 

‘Hello' .Upper() 

'Hello' .Upper() .isupper() 

'Hello' .Upper() .1Lower() 

下 面 的 表达 式 分 别 求 值 为 什么 ? 

Remember ，remember ，the fifth of November.' .split() 
'-'.Jjoin('There can be only one.'.split()) 

. 什么 字符 串 方 法 能 用 于 字符 串 右 对 齐 、 左 对 齐 和 居中 ? 

10. 如 何 去 掉 字符 串 开始 或 末尾 的 空白 字符 ? 


6.11 实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 


6.11.1 表格 输出 


编写 一 个 名 为 printTable( ) 的 函数 ， 它 接收 字符 串 的 列表 的 列表 ， 并 将 列表 显示 在 组 织 良好 
的 表格 中 , 每 列 右 对 齐 。 假定 所 有 内 层 列 表 都 包含 同样 数目 的 字符 串 。 例如 , 该 值 可 能 看 起 来 像 这 样 : 


a 


tableData = [['apples', 'oranges', 'cherries' ，'banana ' ] ， 
【 Alice"， “Bob ” ，“Carol' ‘David'], 
['dogs', 'cats', 'moose'’, 'goose']] 
printTable() 函数 将 输出 : 


apples Alice dogs 

oranges Bob cats 
cherries Carol moose 

banana David goose 


提示 : 你 的 代码 首先 必须 找到 每 个 内 层 列表 中 最 长 的 字符 串 ， 这 样 整 列 就 有 足够 的 宽度 以 放下 所 有 字符 
串 。 你 可 以 将 每 一 列 的 最 大 宽度 保存 为 一 个 整数 的 列表 。printTab1le() 函数 的 开始 可 以 是 
colWidths = [0] * len(tableData)， 这 创建 了 一 个 列表 ， 它 包含 了 一 些 0， 数目 与 
tableData 中 内 层 列 表 的 数目 相同 。 这 样 ，colWidths[0] 就 可 以 保存 tableData[0] 中 最 
长 字符 串 的 宽度 , colWidths[1] 就 可 以 保存 tableData[1] 中 最 长 字符 串 的 宽度 ,以 此 类 推 。 
然后 可 以 找到 CO1Widths 列 表 中 最 大 的 值 ， 决 定 将 什么 整数 宽度 传递 给 Fjust ( ) 字 符 串 方法 。 
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6.11.2 ”僵尸 山子 机 器 人 


“编程 游戏 ”是 一 种 游戏 类 型 ， 玩 家 无 须 直 接 玩 游戏 ， 而 是 编写 机 器 人 程序 来 日 主 玩 游戏 。 
我 创建 了 一 个 “ 伪 尸 山 子 ” 模 拟 器 ， 该 程序 可 以 让 程序 员 在 制作 游戏 AI 时 练习 技能 。 僵 尸 租 
子 机 器 人 可 以 很 简单 ， 也 可 以 非常 复杂 ， 非 常 适合 课堂 练习 或 个 人 编程 挑战 。 

僵尸 骨 子 是 Steve Jackson 游戏 公司 提供 的 一 款 快速 、 有 趣 的 般 子 游戏 。 玩 家 是 僵尸 ， 他 们 
试图 尽 可 能 多 地 吃 掉 人 类 的 大 脑 ， 而 不 被 击 中 3 枪 。 杯 子 里 有 13 个 角 子 ， 大 脑 、 足 迹 和 和 散 弹 枪 的 
图 标 贴 在 它们 的 面 上 。 山 子 图 标 带 有 颜色 ,每 种 颜色 代表 发 生 每 种 事件 的 可 能 性 。 每 个 角子 都 有 两 
个 侧面 是 足迹 , 带 有 绿色 图 标的 山 子 表示 有 更 多 的 大 脑 侧面 , 带 有 红色 图 标的 散 子 表示 有 更 多 的 得 
弹 枪 侧面 ， 而 带 有 黄色 图 标的 山 子 则 有 同样 多 的 大 脑 和 和 握 弹 枪 。 每 个 玩家 轮流 执行 以 下 操作 。 

1. 将 13 个 骨 子 放 入 杯子 中 。 玩家 从 杯子 中 随机 抽取 3 个 崩 子 ,然后 折 角 子 。 玩 家 总 
是 正好 掷 3 个 货 子 。 

2. 将 它们 分 开 ， 数 数 大 脑 ( 被 吃 掉 了 大 脑 的 人 〉 和 敌 弹 枪 (反击 的 人 )。 累 积 3 把 签 
弹 枪 会 自动 以 零 分 结束 玩家 的 这 一 轮 (无 论 他 们 有 多 少 大 脑 )。 如果 他 们 有 0 一 2 把 徐 弹 枪 ， 
就 可 以 根据 需要 继续 掷 般 子 。 他 们 还 可 以 选择 结束 这 一 轮 ， 每 个 大 脑 算 一 个 积 

3. 如 果 玩 家 决定 继续 掷 般 子 ， 则 必须 重新 掷 所 有 带 足 迹 的 般 子 。 请 记 住 ， 玩 家 必须 
总 是 掷 3 个 角 子 。 如 果 他 们 没有 3 个 带 足 迹 的 人 般 子 来 抑 ， 就 必须 从 杯子 中 抽取 更 多 俘 子 。 
玩家 可 能 会 继续 掷 观 子 ， 直 到 他 们 得 到 3 把 签 弹 枪 (使 所 有 物品 丢失 )， 或 13 个 般 子 都 被 
掷 出 为 止 。 玩 家 可 能 不 会 只 重 掷 一 个 或 两 个 人 般 子 ， 也 不 会 在 重 掷 过 程 中 停止 。 

4. 当 某 人 达到 13 个 大 脑 时 ， 其 余 玩 家 也 完成 了 这 一 局 。 大 脑 最 多 的 玩家 会 态 。 如 来 
出 现 平 局 ， 平 局 的 玩家 将 进行 最 后 一 局 决胜 局 。 

僵尸 角子 具有 “得 寸 进 尺 ”的 游戏 机 制 ， 撕 骨 子 的 次 数 越 多 ， 你 能 获得 的 大 脑 就 越 多 ， 但 
也 越 可 能 遇 到 3 把 徐强 枪 而 失去 一 切 。 一旦 某 个 玩家 达到 13 分 其 余 的 玩家 还 有 一 轮 (有 可 能 
追赶 )， 游 戏 结束 。 得 分 最 高 的 玩家 获胜 。 你 可 以 在 GitHub 中 搜索 asweigart/zombiedice 来 找到 
完整 的 规则 。 

按照 附录 A 中 的 说 明 ， 通 过 pip 安装 zombiedice 模块 。 你 可 以 通过 在 交互 式 环境 中 运行 
以 下 命令 以 利用 其 些 预 置 的 机 器 人 运行 模拟 器 来 汗 示 : 

>>> import zombiedice 

>>> zombiedice.demo() 

Zombie Dice Visualization is running. Open your browser to http:// 


localhost:51810 to view it. 
Press Ctrl-C to quit. 


该 程序 将 启动 你 的 Web 浏览 器 ， 如 图 6-1 所 示 。 

你 将 编写 一 个 带 有 turn( ) 方 法 的 类 来 创建 机 器 人 ， 该 方法 在 轮 到 掷 货 子 时 会 被 模拟 器 调用 。 
类 超出 了 本 书 的 范围 ， 因 此 已 经 在 myZombie.py 程序 中 为 你 设置 了 类 代码 ， 该 程序 位 于 本 书 的 可 下 
载 ZIP 文件 中 。 编写 方法 本 质 上 与 编写 函数 相同 , 并 且 你 可 以 将 myZombie.py 程序 中 的 turn() 
代码 用 作 模 板 。 在 这 个 turn() 方 法 中 ， 你 可 以 根据 布 望 机 器 人 掷 山 子 的 次 数 ， 调 用 
zombiedice.roll() 函 数 。 


1000 / 1000 Games Run 


Estimate Time Remaining: 0 see 


(Refresh page to run a Dew tournament.) 


Monte Carlo 
Random 
Stop at 1] Shotgun 


| 
Es 
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Until Leading 
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Progra vour own Zoobje Dice bot., 


图 6-1 僵尸 货 子 模拟 器 的 Web GUI 
程序 代码 如 下 : 


import zombiedice 


class MyZombie: 
def _init_ (self, name ) : 
# All zombies must have a name: 
self.name = name 


def turn(self, gameState) : 
# gameState is a dict with info about the current state of the game. 


# YOU can choose to ignore it in your code. 


diceRollResults = zombiedice.roll() # first roll 


# roll() returns a dictionary with keys “brains'， 'shotgun', and 
# ‘footsteps' with how many rolls of each type there were. 

# The '‘'rolls' key is a list of (color, icon) tuples with the 

# exact roll result information. 

# Example of a roll() return value: 

# {brains Tt, Tootesteps: 1 "shotogun"s: + 

# ‘Toldie”s TYOJLLOW "brains 人 (Fe "Tootsteps"}., 

# 


('green','shotgun’')]} 


# REPLACE THIS ZOMBIE CODE WITH YOUR OWN: 
brains = 0 
while diceRollResults is not None: 

brains += diceRollResults['brains')] 


if brains < 2: 

diceRollResults = zombiedice.roll() # roll again 
else: 

break 


zombies = ( 
zombiedice.examples.RandomCoinFlipZombie(name='Random' ) ， 
zombiedice.examples.RollsUntilInTheLeadZombie(name='Until Leading ' ) ， 
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zombiedice.examples .MinNumShotgunsThenStopsZombie (name= ' Stop at 2 
Shotguns ' ，minShotguns=2 ) ， 

zombiedice.examples .MinNumShotgunsThenStopsZzombie (name= Stop at 1 
Shotgun', minShotguns=1), 

MyZombie(name='My Zombie Bot'), 

# Add any other zombie players here. 


) 


# Uncomment one of the following lines to run in CLI or Web GUI mode: 
#zombiedice.runTournament (zombies=zombies, numGames=1000) 
zombiedice.runWebGui(zombies=zombies, numGames=1000) 


turn() 方 法 接收 两 个 参数 : self 和 gameState。 你 可 以 在 最 初 的 几 个 僵尸 机 器 人 中 忽略 


这 些 ， 如 果 想 了 解 更 多 ， 可 以 查阅 在 线 文档 以 获取 详细 信息 。turn( ) 方 法 针对 初始 掷 人 般 子 应 至 
少 调 用 一 次 zombiedice.roll()。 然 后 ， 根 据 机 器 人 采用 的 策略 ， 它 可 以 多 次 调用 
zombiedice.roll()。 在 myZombie.py 中 ，turn() 方 法 调用 zombiedice.roll() 两 次 ， 
这 意味 着 无 论据 锅子 的 结果 如 何 ， 伪 尸 机 器 人 总 是 会 每 轮 据 两 次 角子 。 

zombiedice.roll() 的 返回 值 告诉 掷 人 般 子 的 结果 。 它 是 一 个 字典 ， 有 4 个 键 。 其 中 的 3 
个 键 'shotgun'、'brains' 和 'footsteps ' 的 整数 值 表示 产生 这 些 图 标的 人 般 子 有 几 个 。 第 4 
个 ' roll1s ' 键 有 一 个 值 ， 是 每 次 撕 骨 子 的 元 组 列表 。 这 些 元 组 包含 两 个 字符 串 : 般 子 的 颜色 在 
索引 0 处 ， 掷 出 的 图 标 在 索引 1 处 。 请 将 turn() 方 法 定义 中 的 代码 注释 作为 例子 。 如 果 该 机 
器 人 已 经 搓 出 了 3 把 规 弹 枪 ， 那 么 zombiedice.roll() 将 返回 None。 

尝试 自己 编写 一 些 机 器 人 来 玩 此 游戏 ， 看 看 它们 与 其 他 机 器 人 相 比 如 何 。 具 体 来 说 ， 请 尝 
试 创建 以 下 机 器 人 。 

DD 在 第 一 掷 之 后 会 随机 决定 继续 还 是 停止 的 机 器 人 。 

口 在 撕 出 两 个 大 脑 后 停止 毛 山 子 的 机 器 人 。 

口 在 撕 出 两 把 繁 弹 枪 后 停止 毛 散 子 的 机 器 人 。 

口 开始 就 决定 将 蜗 子 搁 1 一 和 次 的 机 器 人 ， 但 如 果 掷 出 两 把 签 弹 枪 ， 它 将 提前 停止 。 

口 掷 出 的 零 弹 枪 多 于 大 脑 后 停止 掷 仍 子 的 机 器 人 。 

通过 模拟 器 运行 这 些 机 器 人 ， 并 观察 它们 之 间 的 比较 结果 ， 你 还 可 以 在 GitHub 搜索 
asweigart/zombiedice 来 碍 看 一 些 预 置 机 器 人 的 代码 。 如 果 你 碰巧 在 现实 世界 中 玩 这 个 游戏 ， 那 
么 你 将 受益 于 成 干 上 万 次 游戏 ， 这 些 经 验 会 告诉 你 ， 最 好 的 策略 之 一 是 一 旦 掷 出 两 把 震 弹 枪 就 
停止 。 但 是 ， 你 总 是 可 以 得 寸 进 尺 。 
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模式 匹配 与 正则 表达 式 


你 可 能 熟悉 文本 查找 ， 即 按 Ctrl-F 快捷 键 ， 输 入 你 要 查找 的 词 。“ 正 则 
表达 式 ” 更 进一步 ， 它 们 让 你 指定 要 查找 的 文本 “模式 ”。 你 也 许 不 知道 一 
家 公司 的 准确 电话 号 码 , 但 如 果 你 在 美国 或 加 拿 大 ,你 就 知道 它 开头 有 3 位 
数字 ， 然 后 是 一 个 短 横 线 ， 然 后 是 4 位 数字 ( 有 时 候 以 3 位 区 号 开始 )。 因 
此 作为 一 个 美国 人 或 加 拿 大 人 ， 看 到 一 串 数 字 就 知道 : 415-555-1234 是 电话 
号 码 ， 但 4155551234 不 是 。 

我 们 每 天 还 在 识别 各 种 其 他 文本 模式 : 电子 邮件 地 址 中 间 有 @ 符 号 ， 美 
国 社会 安全 号 有 9 位 数 和 2 个 短 横 线 ， 网 站 的 URL 通常 有 句点 和 正 斜 杠 ， 
新 闻 标 题 中 单词 的 首 字母 大 写 , 社交 媒体 上 的 话题 以 # 开 头 且 不 包含 空格 等 。 

正则 表达 式 很 有 用 ， 但 如 果 不 是 程序 员 ， 很 少 会 有 人 人 了解 它 ， 尽 管 大 
多 数 现代 文本 编辑 器 和 文字 处 理 器 ( 如 微软 的 Word 或 OpenOffice ) 有 查找 
和 替换 功能 , 这 些 也 可 以 根据 正则 表达 式 查 找 。 正则 表达 式 可 以 节约 大 量 时 
间 ,不 仅 适用 于 软件 用 户 ,也 适用 于 程序 员 。 实 际 上 ,技术 作家 Cory Doctorow 
声称 ， 应 该 在 教授 编程 之 前 ， 先 教授 正则 表达 式 。 

“知道 [正则 表达 式 ] 可 能 意味 着 用 3 步 解决 一 个 问题 ,而 不 是 用 3000 步 。 
如 果 你 是 一 个 技术 怪 使 ， 别 忘 了 你 用 几 次 按键 就 mm 其 他 人 需要 
做 数 天 的 繁琐 工作 才能 解决 ， 而 且 他 们 容易 犯错 。 

在 本 章 中 ， 你 将 从 编写 一 个 程序 开始 ， 先 不 用 正则 表达 式 来 寻找 文本 
模式 , 然后 再 使 用 正则 表达 式 让 代码 变 得 简洁 。 我 将 使 用 正则 表达 式 进 行 基 
本 匹配 ， 然 后 实现 一 些 更 强大 的 功能 ， 如 字符 串 替换 ,最 后 由 你 创建 自己 的 
字符 类 型 。 最 后 ,在 本 章 末 尾 ， 你 将 编写 一 个 程序 ， 实现 从 一 段 文本 中 自动 
提取 电话 号 码 和 E-mail 地 址 的 功能 。 


7.1 不 用 正则 表达 式 来 查找 文本 模式 


假设 你 希望 在 字符 串 中 查找 电话 号 码 。 你 知道 模式 ，3 个 数字 + 一 个 短 横 。。 视频 潮解 
线 +3 个 数字 + 一 个 短 横 线 +4 个 数字 ， 如 415-555-4242。 
入 定 我 们 用 一 个 名 为 TsPhoneNumber ( ) 的 函数 来 检查 字符 串 是 否 匹 配 模式 , 它 返回 True 


(D Cory Doctorow, “Here's what ICT should really teach kids: how to do regular expressions,”Guardian, December 4, 2012. 
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或 False。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 然 后 保存 为 isPhoneNumber.py: 


def isPhoneNumber (text): 
©@ if len(text) != 12: 
return False 
for i in range(0, 3): 
@ if not text[i].isdecimal(): 
return False 
@ if 二 SGXt[3] ts <: 
return False 
for i in range(4, 7): 
@ if not text[i].isdecimal(): 
return False 
@ if text[7] != '-': 
return False 
for i in range(8, 12): 
© if not text[i].isdecimall(): 
return False 
@ return True 


print('415-555-4242 is a phone number:') 
print(isPhoneNumber( '415-555-4242 ' ) ) 
print('Moshi moshi is a phone number:') 
print(isPhoneNumber('Moshi moshi')) 


运行 该 程序 ， 输 出 结果 像 这 样 : 


415-555-4242 is a phone number : 
True 

Moshi moshi is a phone number: 
False 


isPhoneNumber( ) 函数 进行 了 几 项 检查 ， 看 看 text 中 的 字符 串 是 不 是 有 效 的 电话 号 码 。 
如 果 其 中 任意 一 项 检查 失败 ， 函数 就 返回 False。 函 数 首 先 检查 该 字符 串 是 否 刚好 有 12 个 字 
符 @。 然 后 它 检 查 区 号 (就 是 text 中 的 前 3 个 字符 ) 是 否 只 包含 数字 加。 函数 剩 下 的 部 分 检 
查 该 字符 串 是 否 符合 电话 号 码 的 模式 : 号 码 必 须 在 区 号 后 出 现 第 一 个 短 横 线 人 @，3 个 数字 @， 
然后 是 男 一 个 短 横 线 @， 最 后 是 4 个 数字 @。 如 果 程 序 执行 通过 了 所 有 的 检查 ， 它 就 返回 
True@。 

用 参数 '415-555-4242 ' 调 用 isPhoneNumber () 将 返回 True。 用 参数 'Moshi moshi' 
调用 isPhoneNumber () 将 返回 False， 这 项 测试 失败 了 ， 因 为 不 是 12 个 字符 。 

如 果 想 在 更 长 的 字符 串 中 寻找 电话 号 码 ， 就 必须 添加 更 多 代码 来 寻找 电话 号 码 模式 。 用 下 
面 的 代码 蔡 代 isPhoneNumberpy 中 的 最 后 4 个 print() 函 数 调 用 : 

message = 'Call me at 415-555-1011 tomorrow. 415-555-9999 is my office.' 

for i in range(len(message)): 

@ chunk = message[i:i+12] 


@ if isPhoneNumber (chunk ) : 
print('Phone number found: ' + chunk) 


print('Done ') 
该 程序 运行 时 ， 输 出 结果 看 起 来 像 这 样 : 


Phone number found: 415-555-1011 
Phone number found: 415-555-9999 
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Done 

在 for 循环 的 每 一 次 迭代 中 , 取 自 message 的 一 段 新 的 12 个 字符 被 赋 给 变量 chunk@ 。 
例如 , 在 第 一 次 迭代 时 , 在 是 0，chunk 被 赋值 为 message[0:12] ( 即 字符 串 'Callme at4')。 
在 下 一 次 迭代 时 ，i 是 1，chunk 被 赋值 为 message[1:13] ( 即 字符 串 'all me at 41')。 换 
言 之 ， 在 for 循环 的 每 次 迭代 中 ，chunk 取 以 下 的 值 : 

DQ 'Call me at 4' 

DD 'all me at 41' 

"11 me at 415， 

i tt 


加 .………。 

将 chunk 传递 给 isPhoneNumber()， 看 看 它 是 否 符 合 电话 号 码 的 模式 @。 如 果 符合 ， 就 
输出 这 段 文 本 。 

继续 遍历 message， 最 终 chunk 中 的 12 个 字符 会 是 一 个 电话 号 码 。 该 循环 遍历 Ee 


符 串 ， 测 试 了 每 一 段 12 个 字符 ， 输出 所 有 满足 isPhoneNumber () 的 chunk。 当 我 们 遍 
message， 就 输出 Done。 

虽然 在 这 个 例子 中 message 中 的 字符 串 很 短 , 但 它 也 可 能 包含 上 百 万 个 字符 , 程序 运行 仍 
然 不 需要 1 秒 。 使 用 正则 表达 式 编写 查找 电话 号 码 的 类 似 程 序 ， 运 行 也 不 会 超过 1 秒 ， 但 用 正 
则 表达 式 编写 这 类 程序 会 快 得 多 。 


7.2 用 正则 表达 式 查 找 文 本 模式 


前 面 的 电话 号 码 查 找 程 序 能 工作 , 但 它 使 用 了 很 多 代码 ， 了 
函数 有 17 行 ， 但 只 能 查找 一 种 电话 号 码 模 式 。 像 415.555.4242 或 (415) 555-4242 1 这 入 的 电话 
导 人 码 格式 该 怎么 办 呢 ? 如果 电 话 号 码 有 分 机 ， 例 如 415-555-4242 x99， 该 怎么 办 呢 ? 
isPhoneNumber() 图 数 在 验证 它们 时 会 失败 。 你 可 以 添加 更 多 的 代码 来 处 理 额 外 的 模式 ， 但 
还 有 更 简单 的 方法 。 

正则 Re 和 为 “regex”， 是 文本 模式 的 描述 方法 。 例 如 ，\d 是 一 个 正则 表达 式 ， 表 
示 一 位 数字 字符 , 即 任何 一 位 0 一 9 的 数字 。Python 使 用 正则 表达 式 \d\d\d-\d\d\d-\d\d\d\d 
来 匹配 前 面 i it tot end oy oie 3 个 数字 、 一 个 短 横 线 、3 个 数字 、 一 个 
短 横 线 、4 个 数字 。 上 所 有 其 他 字符 串 都 不 能 匹配 \d\d\d-\d\d\d-\d\d\d\d 正则 表达 式 

但 正则 表达 趟 可 以 复杂 得 多 。 例 如 ， 在 一 个 模式 后 加 上 花 括号 包围 的 3 〈({3}7， 表 示 “ 史 
配 这 个 模式 3 次 ”。 所 以 较 短 的 正则 表达 式 \df3}-\d{3}-\d{4} 也 匹配 正确 的 电话 号 码 格式 。 


7.2.1 创建 正则 表达 式 对 象 


Python 中 所 有 正则 表达 式 的 函数 都 在 re 模块 中 。 在 交互 式 环境 中 输入 以 下 代码 ， 导 入 该 
模块 : 


>>> import re 
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注意 : 本 章 后 面 的 大 多 数 例子 需要 使 用 Fe 模块 ， 因 此 要 记得 在 你 写 的 每 个 脚本 开始 处 导入 它 ， 或 在 重新 
启动 DLE 时 叶 入 它 。 否 则 ， 就 会 遇 到 错误 信息 NameError: name're'is not defined。 


问 re.compile() 传 入 一 个 字符 串 值 ,表示 正则 表达 式 , 它 将 返回 一 个 Regex 模式 对 象 (或 
者 就 简称 为 “Regex 对 象 ”)。 

要 创建 一 个 Regex 对 象 来 匹配 电话 号 码 模 式 ， 就 在 交互 式 环境 中 输入 以 下 代码 (回忆 
一 下 ，\d 表示 “一 个 数字 字符 ”，\d\d\d-\d\d\d-\d\d\d\d 是 正确 电话 号 码 模 式 的 正则 
表达 式 ): 


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 


现在 phoneNumRegex 变量 包含 了 一 个 Regex 对 象 。 


7.2.2 ”匹配 Regex 对 象 


Regex 对 象 的 search( ) 方 法 查找 传 入 的 字符 串 ， 以 寻找 该 正则 表达 式 的 所 有 匹配 。 如 果 
字符 串 中 没有 找到 该 正则 表达 式 模式 ， 那 么 search( ) 方 法 将 返回 None。 如 果 找 到 了 该 模式 ， 
search() 方 法 将 返回 一 个 Match 对 象 。Match 对 象 有 一 个 group 1() 方 法 ， 它 返回 被 查找 字符 
串 中 实际 匹配 的 文本 〈 稍 后 我 会 解释 分 组 )。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 
>>> mo = phoneNumRegex.search('My number is 415-555-4242.') 
>>> print('" Phone number found: ' + mo.group()) 

Phone number found: 415-555-4242 


变量 名 mo 是 一 个 通用 的 名 称 ， 用 于 Match 对 象 。 这 个 例子 可 能 初 看 起 来 有 点 复杂 ， 但 它 
比 前 面 的 isPhoneNumber.py 程序 要 短 很 多 ， 并 且 做 的 事情 一 样 。 

这 里 ， 我 们 将 期 待 的 模式 传递 给 re.compile()， 并 将 得 到 的 Regex 对 象 保存 在 
phoneNumRegex 中 。 然 后 我 们 在 phoneNumRegex 上 调用 search()， 向 它 传 入 想 查找 的 字符 串 。 
查找 的 结果 保存 在 变量 mo 中 。 在 这 个 例子 里 ， 我 们 知道 模式 会 在 这 个 字符 串 中 找到 ， 因 此 我 们 知 
道 会 返回 一 个 Match 对 象 。 知 道 mo 包含 一 个 Match 对 象 ， 而 不 是 空 值 None， 我 们 就 可 以 在 mo 
变量 上 调用 group() ， 返 回 匹 配 的 结果 。 将 mo .group() 写 在 输出 语句 中 以 显示 出 完整 的 匹配 ， 
即 415-555-4242。 


7.2.3 正则 表达 式 匹 配 复 习 


在 Python 中 使 用 正则 表达 式 有 以 下 几 个 步骤 ， 每 一 步 都 相当 简单 。 

1. 用 import re 导入 正则 表达 式 模块 。 

2. 用 re.compile() 函 数 创 建 一 个 Regex 对 象 〈 记 得 使 用 原始 字符 串 )。 

3. 问 Regex 对 象 的 search() 方 法 传 入 想 查 找 的 字符 串 ， 它 返回 一 个 Match 对 象 。 
4. 调用 Match 对 象 的 group() 方 法 ， 返 回 实际 匹配 文本 的 字符 串 。 
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注意 : 虽然 我 鼓励 你 在 交互 式 环境 中 输入 示例 代码 , 但 你 也 应 该 利用 基于 网 页 的 正则 表达 式 来 测试 程序 。 
它 可 以 向 你 清楚 地 展示 一 个 正则 表达 式 如 何 匹 配 输入 的 一 段 文本 。 我 推荐 的 测试 程序 位 于 Pythex 
网 站 。 


7.3 用 正则 表达 式 匹 配 更 多 模式 


既然 你 已 知道 用 Python 创建 和 查找 正则 表达 式 对 象 的 基本 步骤 , 就 可 以 尝试 实现 一 些 更 踢 
大 的 模式 匹配 功能 了 。 


7.3.1 利用 括号 分 组 


假定 想 要 将 区 号 从 电话 号 码 中 分 离 , 添加 括号 将 在 正则 表达 式 中 创建 “分 组 ”: (\d\d\d)- 
(\d\d\d-\d\d\d\d)。 然 后 可 以 使 用 group() 匹 配对 象 方法 ， 从 一 个 分 组 中 获取 匹配 的 
文本 。 

正则 表达 式 字符 串 中 的 第 一 对 括号 是 第 1 组， 第 二 对 括号 是 第 2 组 。 向 group() 匹 配对 象 方 
法 传 入 整数 1 或 2， 就 可 以 取得 匹配 文本 的 不 同 部 分 。 向 group ( ) 方 法 传 入 0 或 不 传 入 参数 ， 将 返 
回 整个 匹配 的 文本 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d-\d\d\d\d)') 
>>> mo = phoneNumRegex.search('My number is 415-555-4242.) 
>>> mo.group(1) 

“415 

>>> mo.group(2) 

“555-4242 

>>> mo.group(0) 

'415-555-4242" 

>>> mo.group() 

'415-555-4242" 


如 果 想 要 一 次 就 获取 所 有 的 分 组 ， 请 使 用 groups ( ) 方 法 ， 注 意 函数 名 的 复数 形式 .: 


>>> mo.groupst) 

(555 24 人 2 ) 

>>> areaCode, mainNumber = mo.groups() 
>>> print(areaCode) 

415 

>>> print(mainNumber ) 

555-4242 


因为 mo.groups () 返 回 多 个 值 的 元 组 ， 所 以 你 可 以 使 用 多 重 赋值 的 技巧 ， 每 个 值 赋 给 一 
个 独立 的 变量 ， 就 像 前 面 的 代码 行 : areacode，mainNumber = mo.groups()。 

括号 在 正则 表达 式 中 有 特殊 的 侣 义 ， 如 果 你 需要 在 文本 中 匹配 括号 ， 该 怎么 办 呢 ? 例如 ， 
你 要 匹配 的 电话 号 码 可 能 将 区 号 放 在 一 对 括号 中 。 在 这 种 情况 下 ， 就 需要 用 倒 伸 杠 对 括号 进行 
字符 转 义 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'(\(\d\d\d\)) (\d\d\d-\d\d\d\d)') 
>>> mo = phoneNumRegex.Ssearch( My phone number is (415) 555-4242.) 
>>> mo.group(1) 
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‘(415)" 

>>> mo .group(2) 

'555-4242" 

在 传递 给 re .compile( ) 的 原始 字符 串 中 , \( 和 \) 转 义 字 符 将 匹配 实际 的 括号 字符 。 在 正则 
表达 式 中 ， 以 下 字符 具有 特殊 含义 : 


a 

如 果 要 检测 包含 这 些 字符 的 文本 模式 ， 那 么 就 需要 用 倒 斜 杠 对 它们 进行 转 义 : 

WN 

要 确保 在 正则 表达 式 中 ， 没 有 将 转 义 的 括号 \( 和 \) 误 作为 括号 (和 ) 。 如 果 你 收 到 类 似 
“missing)” 或 “unbalanced parenthesis” 的 错误 信息 ， 则 可 能 是 忘记 了 为 分 组 添加 转 
义 的 右 插 号 ， 例 如 以 下 示例 : 


>>> re.compile(r'(\(Parentheses\)') 
Traceback (most recent call last): 
--SNip-- 
re.error: missing ), unterminated subpattern at position 0 


这 条 错误 信息 告诉 你 , 在 r'(\ (Parentheses\)' 字 符 串 的 索引 0 处 有 一 个 左 括 号 ,但 缺 
少 对 应 的 右 括 号 。 


7.3.2 ”用 管道 匹配 多 个 分 组 


字符 | 称 为 “管道 ?， 和 希望 匹配 许多 表达 式 中 的 一 个 时 ， 就 可 以 使 用 它 。 例 如 ， 正 则 表达 式 
r'Batman|Tina Fey' 将 匹配 'Batman ' 或 'Tina Fey '。 

如 果 Batman 和 Tina Fey 都 出 现在 被 查找 的 字符 串 中 ， 那 么 第 一 次 出 现 的 匹配 文本 将 作为 
Match 对 象 返回 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> heroRegex = re.compile (Fr'Batman|Tina Fey ') 
>>> mo1 = heroRegex.search('Batman and Tina Fey.') 
>>> mol1.group() 

‘Batman’ 


>>> m02 = heroRegex.search('Tina Fey and Batman.') 
>>> mo2.group() 
Tina Fey' 


注意 : 利用 findall( ) 方 法 可 以 找到 “所 有 ”匹配 的 地 方 ， 这 将 在 7.5 节 “findall () 方 法 ”中 讨论 。 


也 可 以 使 用 管道 来 匹配 多 个 模式 中 的 一 个 ， 这 些 模式 可 作为 正则 表达 式 的 一 部 分 。 例 如 ， 
假设 你 希望 匹配 'Batman'、'Batmobile'、'Batcopter' 和 'Batbat' 中 的 任意 一 个 。 因 为 
这 些 字 符 串 都 以 Bat 开始 ， 所 以 如 果 能 够 只 指定 一 次 前 缀 就 很 方便 。 这 可 以 通过 括号 实现 。 在 
交互 式 环境 中 输入 以 下 代码 : 


>>> batRegex = re.compile(r'Bat(man|mobile|copter|bat) ') 
>>> mo = batRegex.search('Batmobile lost a Wheel ') 
>>> mo.group() 
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'Batmobile' 
>>> mo.group(1) 
'mobile' 


方法 调用 mo .group() 返 回 了 完全 匹配 的 文本 'Batmobile'， 而 mo.group(1) 只 是 返回 
第 一 个 括号 分 组 内 匹配 的 文本 'mobile'。 使 用 管道 字符 和 分 组 括号 可 以 指定 几 种 可 选 的 模式 ， 


以 让 正则 表达 式 去 匹配 。 


如 果 需 要 匹配 真正 的 管道 字符 ， 就 用 倒 斜 杠 转 义 ， 即 \|。 


7.3.3 用 问号 实现 可 选 匹 配 


配 。 


有 时 候 ， 想 匹配 的 模式 是 可 选 的 。 就 是 说 ， 不 论 这 段 文本 在 不 在 ， 正 则 表达 式 都 会 认为 匹 
字符 ?表明 它 前 面 的 分 组 在 这 个 模式 中 是 可 选 的 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> batRegex = re.compile(r'Bat(wo)?man’) 

>>> mo1 = batRegex.search('The Adventures of Batnman ' ) 
>>> mo1.group() 

“Batman” 


>>> mo2 = batRegex.search('The Adventures of Batwoman ) 
>>> mo2.group() 
‘Batwoman ' 


正则 表达 式 中 的 (wo)? 部 分 表明 模式 wo 是 可 选 的 分 组 。 在 该 正则 表达 式 匹 配 的 文本 中 ， 
wo 将 出 现 零 次 或 一 次 。 这 就 是 为 什么 正则 表达 式 既 匹配 'Batwoman'， 又 匹配 'Batman'。 
利用 前 面 电 话 号 码 的 例子 ， 你 可 以 让 正则 表达 式 寻 找 包 含 区 号 或 不 包含 区 号 的 电话 号 码 。 


在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneRegex = re.compile(r'(\d\d\d-)?\d\d\d-\d\d\d\d') 
>>> mo1 = phoneRegex.search('My number is 415-555-4242') 
>>> mo1.group() 

415-555-4242， 


>>> mo2 = phoneRegex.search('My number is 555-4242') 
>>> m0o2.group') 
'555-4242' 


你 可 以 认为 ?是 在 说 “匹配 这 个 问号 之 前 的 分 组 零 次 或 一 次 ”。 
如 果 需 要 匹配 真正 的 问号 字符 ， 残 使 用 转 义 字符 \?。 


7.3.4 ”用 星 号 匹配 零 次 或 多 次 


*( 星 号 ) 意味 着 “匹配 零 次 或 多 次 ”， 即 星 号 之 前 的 分 组 可 以 在 文本 中 出 现任 意 次 。 它 可 


以 完全 不 存在 ， 也 可 以 一 次 又 一 次 地 重复 。 让 我 们 再 来 看 看 Batman 的 例子 : 


>>> batRegex = re.compile(r'Bat(wo)*man' ) 

>>> mof = batRegex.search('The Adventures of Batman ' ) 
>>> molf.group() 

“Batman” 


>>> mo2 = bathegex.search('The Adventures of Batwoman ' ) 
>>> mo2.group() 
‘Batwoman ’' 
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>>> m0o3 = batRegex.search('The Adventures of Batwowowowoman ' ) 
>>> mo3.group() 
‘Batwowowowoman ' 


对 于 'Batman'， 正 则 表达 式 的 (wo)* 部 分 匹配 wo 的 零 个 实例 。 对 于 'Batwoman' ，(wo)* 匹 配 
wo 的 一 个 实例 。 对 于 'Batwowowowoman'，(wo)* 匹 配 wo 的 4 个 实例 。 
如 果 需 要 匹配 真正 的 星 号 字符 ， 就 在 正则 表达 式 的 星 号 字符 前 加 上 倒 斜 枉 ， 即 \*。 


7.3.5 ”用 加 号 匹配 一 次 或 多 次 


* 意 味 着 “匹配 零 次 或 多 次 ”+ (加 号 ) 则 意味 着 “匹配 一 次 或 多 次 ”。 星 号 不 要 求 分 组 出 
现在 匹配 的 字符 串 中 ,但 加 号 不 同 ， 加 号 前 面 的 分 组 必须 “至 少 出 现 一 次 ”。 这 不 是 可 选 的。 在 
交互 式 环境 中 输入 以 下 代码 ， 把 它 和 前 一 小 节 的 星 号 正则 表达 式 进行 比较 : 

>>> batRegex = re.compile(r'Bat(wo)+man') 

ol.eroup0 The Adventures of Batwoman ' ) EE 


>>> mo2 = batRegex.search('The Adventures of Batwowowowoman ' ) 
>>> mo2.9groupl() 
'Batwowowowoman ' 


>>> m03 = batRegex.search('The Adventures of Batman’') 
>>> m03 == None 
True 


正则 表达 式 Bat (wo)+man 不 会 匹配 字符 串 'The Adventures of Batman'， 因 为 加 号 
要 求 wo 至 少 出 现 一 次 。 
如 果 需 要 匹配 真正 的 加 号 字符 ， 在 加 号 前 面 加 上 倒 斜 杠 实 现 转 义 ， 即 \+。 


7.3.6 用 人 花 括号 匹配 特定 次 数 


如 果 想 要 一 个 分 组 重复 特定 次 数 , 就 在 正则 表达 式 中 该 分 组 的 后 面 跟 上 人 花 括号 包围 的 数字 。 
例如 ， 正 则 表达 式 (Ha) {3} 将 匹配 字符 串 'HaHaHa' ， 但 不 会 匹配 'HaHa'， 因 为 后 者 只 重复 了 
(Ha) 分 组 两 次 。 

除了 一 个 数字 ， 还 可 以 指定 一 个 范围 ， 即 在 花 括号 中 写 下 一 个 最 小 值 、 一 个 逗号 和 一 个 最 
大 值 。 例 如 ， 正 则 表达 式 (Ha) {3,5} 将 匹配 'HaHaHa'、'HaHaHaHa' 和 'HaHaHaHaHa'。 

也 可 以 不 写 花 括号 中 的 第 一 个 或 第 二 个 数字 , 表示 不 限定 最 小 值 或 最 大 值 ,例如 , (Ha) {3,} 
将 匹配 3 次 或 更 多 次 实例 ，(Ha){ ,5} 将 匹配 0 一 5 次 实例 。 花 括号 让 正则 表达 式 更 简短 。 这 两 
个 正则 表达 式 匹配 同样 的 模式 : 


(Ha) {3} 
(Ha) (Ha) (Ha) 


这 两 个 正则 表达 式 也 匹配 同样 的 模式 : 


(Ha) {3,5} 
((Ha) (Ha) (Ha)) | ((Ha) (Ha) (Ha) (Ha)) | ((Ha) (Ha) (Ha) (Ha) (Ha)) 
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在 交互 式 环境 中 输入 以 下 代码 : 
>>> haRegex = re.compile(r' (Ha){3}') 
>>> m0o1 = haRegex.search('HaHaHa') 


>>> mo1.group() 
"HaHaHa' 


>>> mo2 = haRegex.search('Ha') 
>>> mo2 == None 
True 


这 里 ，(Ha){3} 匹 配 'HaHaHa' ， 但 不 匹配 'Ha' 。 因 为 它 不 匹配 'Ha'， 所 以 search() 返 
回 None。 


7.4 贪心 和 非 贪 心 匹 配 


在 字符 串 'HaHaHaHaHa' 中 ，(Ha) {3,5} 可 以 匹配 3 个 、4 个 或 5 个 实例 , 但 者 用 (Ha) {3,5} 
去 查找 'HaHaHaHaHa' 时， 你 会 发 现 Match 对 象 的 group() 调 用 只 会 返回 'HaHaHaHaHa'， 而 不 
是 更 短 的 可 能 结果 。 毕 竟 'HaHaHa' 和 'HaHaHaHa' 也 能 够 有 效 地 匹配 正则 表达 式 (Ha) {3,5}。 

Python 的 正则 表达 式 默 认 是 “贪心 ”的 ， 这 表示 在 有 二 义 的 情况 下 ， 它 们 会 尽 可 能 匹配 最 
长 的 字符 串 。 花 括号 的 “ 非 贪 心 ”( 也 称 为 “惰性 ”) 版 本 尽 可 能 匹配 最 短 的 字符 串 ， 即 在 结束 
的 花 括 号 后 跟着 一 个 问号 。 

在 交互 式 环境 中 输入 以 下 代码 ， 在 查找 相同 字符 串 时 ， 注 意 花 括号 的 贪心 形式 和 非 贪 心 形 
式 之 间 的 区 别 : 

>>> greedyHaRegex = re.compile(r'(Ha){3,5}') 

>>> mo1 = greedyHaRegex.search('HaHaHaHaHa') 


>>> mo1.groupt) 
‘HaHaHaHaHa' 


>>> nongreedyHaRegex = re.compile(r'(Ha){3,5}?') 
>>> mo2 = nongreedyHaRegex.search('HaHaHaHaHa') 
>>> mo2 .group() 

'HaHaHa' 


请 注意 ， 问 号 在 正则 表达 式 中 可 能 有 两 种 含义 :声明 非 焦 心 匹配 或 表示 可 选 的 分 组 。 这 两 
种 含义 是 完全 无 关 的 。 


7.5 findall() 方 法 


除了 search() 方 法 ，Regex 对 象 还 有 一 个 findall() 方 法 。search() 方 法 将 返回 一 个 
Match 对 象 ， 包 含 被 查找 字符 串 中 的 “第 一 次 ”匹配 的 文本 : 而 findall() 方 法 将 返回 一 组 字符 
串 ， 包 含 被 查找 字符 串 中 的 “所 有 ”匹配 文本 。 为 了 验证 search() 方 法 返回 的 Match 对 象 只 包 
含 第 一 次 出 现 的 匹配 文本 ， 请 在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') 

>>> mo = phoneNumRegex.search('Cell: 415-555-9999 Work: 212-555-0000') 
>>> mo .group!l) 

'415-555-9999' 
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男 一 方面 ,findal1l() 方 法 不 是 返回 一 个 Match 对 象 ， 而 是 返回 一 个 字符 串 列表 ， 条 件 是 
在 正则 表达 式 中 没有 分 组 。 列 表 中 的 每 个 字符 串 都 是 一 段 被 查找 的 文本 , 它 匹配 该 正则 表达 式 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d') # has no groups 
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000') 
[ "415-555-9999'" ， "212-555-0000 ' ] 


如 果 在 正则 表达 式 中 有 分 组 , 那么 findal1() 方 法 将 返回 元 组 的 列表 。 每 个 元 组 表示 一 个 
找到 的 匹配 ， 其 中 的 项 就 是 正则 表达 式 中 每 个 分 组 的 匹配 字符 串 。 为 了 查看 findall() 方 法 的 
效果 ， 请 在 交互 式 环境 中 输入 以 下 代码 〈 请 注意 ， 被 编译 的 正则 表达 式 现在 有 括号 分 组 ): 


>>> phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)') # has groups 
>>> phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000' ) 
(('415°,. "5655 0990 人 人 2 人 555， “0000 2 


作为 findall() 方 法 的 返回 结果 的 总 结 ， 请 记 住 下 面 两 点 。 

口 如 果 在 一 个 没有 分 组 的 正则 表达 式 上 调用 ， 例 如 \d\d\d-\d\d\d-\d\d\d\d, findall() 
方法 将 返回 一 个 匹配 字符 串 的 列表 ， 例 如 [ '415-555-9999' ，'212-555-0000']。 

口 如 果 在 一 个 有 分 组 的 正则 表达 式 上 调用 ， 例 如 (\d\d\d)-(\d\d\d)- (\d\d\d\d)， 
findall() 方 法 将 返回 一 个 字符 串 的 元 组 的 列表 (每 个 分 组 对 应 一 个 字符 串 )， 例 如 
ti 66: 000059 1 


7.6 ”字符 分 类 


在 前 面 电话 号 码 正 则 表达 式 的 例子 中 ，\d 可 以 代表 任何 数字 。 也 就 是 说 ，\d 是 正则 表达 
式 (0111213141516171819) 的 缩写 。 有 许多 这 样 的 “缩写 字符 分 类 ”人 如 表 7-1 所 示 。 


表 7-1 常用 字符 分 类 的 缩写 代码 


缩写 字符 分 类 表示 
\d 0 一 9 的 任何 数字 
\D 除 0~9 的 数字 以 外 的 任何 字符 
\w 任何 字母 、 数 字 或 下 划 线 字符 (可 以 认为 是 匹配 “单词 ”字符 ) 
\W 除 字母 、 数 字 和 下 划 线 以 外 的 任何 字符 
\s 空格 、 制 表 符 或 换行 符 〈 可 以 认为 是 匹配 “空白 ”字符 ) 
\S 除 空格 、 制 表 符 和 换行 符 以 外 的 任何 字符 


字符 分 类 对 于 缩短 正则 表达 式 很 有 用 。 字 符 分 类 [0-5] 只 匹配 数字 0 一 5， 这 比 输入 
(0|11|12131415) 要 短 很 多 。 请 注意 ， 虽 然 \d 匹配 数字 ， 而 \w 匹配 数字 、 字 母 和 下 划 线 ， 但 是 没 
有 速记 字符 类 仅 匹 配 字母 。( 你 可 以 使 用 [a-zA-Z] 字 符 类 匹配 字母 。) 

例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> xmasRegex = re.compile(r'\d+\s\w+') 
>>> xmasRegex.findall('12 drummers, 11 pipers, 10 lords, 9 ladies, 8 maids, 7 
swans, 6 geese, 5 rings, 4 birds, 3 hens, 2 doves, 1 partridge') 
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['12 drummers', '11 pipers'，'10 lords', '9 ladies', '8 maids', '7 swans', 6 
geese', '5 rings'，'4 birds', '3 hens', '2 doves', '1 partridge'] 


正则 表达 式 \d+\s\w+ 匹 配 的 文本 有 一 个 或 多 个 数字 (\d+)， 然 后 是 一 个 空 日 字符 (\s)， 
接 下 来 是 一 个 或 多 个 字母 /数字 /下 划 线 字符 (\w+)。findall() 方 法 将 返回 所 有 匹配 该 正则 表 
达 式 的 字符 串 ， 并 将 其 放 在 一 个 列表 中 。 


7.7 建立 自己 的 字符 分 类 


有 时 候 你 想 匹 配 一 组 字符 ， 但 缩写 的 字符 分 类 〈\d、\w、A\s 等 ) 太 宽 泛 。 这 时 候 你 可 以 
用 方 括号 定义 自己 的 字符 分 类 。 例 如 ， 字 符 分 类 [aeiouAEIOU] 将 匹配 所 有 元 音字 符 ， 且 不 区 
分 大 小 写 。 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> vowelRegex = re.compile(r' [aeiouAEIOU] ') 

>>> VOwelRegex.findall('Robocop eats baby food. BABY F00D.) 

Pn Os 0 A 0 

也 可 以 使 用 短 横 线 表 示 字 母 或 数字 的 范围 。 例 如， 字符 分 类 [a-zA-Z0-9] 将 匹配 所 有 小 写 
字母 、 大 写字 母 和 数字 。 

请 注意 ， 在 方 括号 内 ， 普 通 的 正则 表达 式 符 号 不 会 被 解释 。 这 意味 着 你 不 需要 在 前 面 加 上 
倒 斜 杠 转 义 .、* 、? 或 () 字 符 。 例 如 ， 字 符 分 类 将 匹配 数字 0 一 5 和 一 个 句点 ， 你 不 需要 将 它 写 
成 [0-5\.]。 

在 字符 分 类 的 左 方 括号 后 加 上 一 个 插入 字符 〈^)， 就 可 以 得 到 “ 非 字 符 类 ”。 非 字符 类 将 匹配 
不 在 这 个 字符 类 中 的 所 有 字符 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> consonantRegex = re.compile(r '[^aeiouAEIOU] ') 

>>> ConsonantRegex .findall('Robocop eats baby food. BABY FOOD.') 

CR', 3 0 ps Sg 汪汪 "Ss'， 二 La ‘b", a 3 人 "ds Mg 
-和 EE Ya ' ', i D ， “ec 


现在 ， 程 序 不 是 匹配 所 有 元 音字 符 ， 而 是 匹配 所 有 非 元 音字 符 。 
7.8 ”插入 字符 和 美元 字 付 


可 以 在 正则 表达 式 的 开始 处 使 用 插入 符号 〈^)， 表 明 匹 配 必 须发 生 在 被 查找 文本 开始 处 。 
类 似 地 ， 可 以 在 正则 表达 式 的 末尾 加 上 美元 符号 〈$)， 表 示 该 字符 串 必 须 以 这 个 正则 表达 式 的 
模式 结束 。 可 以 同时 使 用 ^ 和 $， 表 明 整 个 字符 串 必须 匹配 该 模式 ， 也 就 是 说 ， 只 匹配 该 字符 串 
的 某 个 子 集 是 不 够 的 。 

例如 ， 正 则 表达 式 r'“Hello' 匹 配 以 'Hello' 开 始 的 字符 串 。 在 交互 式 环境 中 输入 以 
下 代码 : 


>>> beginsWithHello = re.compile(r' “Hello') 

>>> beginsWithHello.search('Hello world!') 

<re. Match object; span=(0, 5), match='Hello'> 

>>> beginsWithHello.search('He said hello.') == None 
True 


TO 
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正则 表达 式 r'\d$' 匹配 以 数字 0 一 9 结束 的 字符 串 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> endsWithNumber = re.compile(r'\d$') 

>>> endsWithNumber .search('Your number is 42') 

<re. Match object; span={16, 17), match='2'> 

>>> endsWithNumber .search('Your number is forty two.') == None 
True 


正则 表达 式 r'“^\d+$' 匹配 从 开始 到 结束 都 是 数字 的 字符 串 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> wholeStringIsNum = re.compile(r'^\d+$') 

>>> wholeStringIsNum.search('1234567890') 

<re,. Match object; span=(0, 10), match='1234567890'> 
>>> wholeStringIsNum.search('12345xyz67890') == None 
True 

>>> wholeStringIsNum.search('12 34567890') == None 
True 


前 面 交 互 式 脚本 例子 中 的 最 后 两 次 search( ) 调 用 表明 ， 如 果 使 用 了 ^ 和 $， 那 么 整个 字符 
串 必须 匹配 该 正则 表达 式 。 

因为 我 总 是 会 混 消 这 两 个 符号 的 含义 ， 所 以 我 使 用 助 记 法 “Carrots cost dollars”， 提醒 我 插 
入 符号 在 前 面 ， 美 元 符号 在 后 面 。 


7.9” 通 配 字 符 


在 正则 表达 式 中 ，.〔 句 点 ) 字符 称 为 “ 通 配 字 符 ”。 它 匹配 换行 符 之 外 的 所 有 字符 。 例 如 ， 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> atRegex = re.compile(r' .at') 

>>> atRegex.findall('The cat in the hat Sat on the flat mat.') 

人 

要 记 住 ， 句 点 字符 只 匹配 一 个 字符 ， 这 就 是 为 什么 在 上 面 的 例子 中 ， 对 于 文本 flat， 只 
匹配 lat。 要 匹配 真正 的 句点 ， 就 使 用 倒 斜 杠 转 义 ， 即 \.。 


7.9.1 用 点 - 星 匹配 所 有 字符 


有 时 候 想 要 匹配 所 有 字符 串 。 例 如 ， 假 定 想 要 匹配 字符 串 'First Name: '， 接 下 来 是 任意 文 
本 ， 再 接 下 来 是 'Last Name : ' ， 然 后 又 是 任意 文本 。 可 以 用 点 - 星 〈.* ) 表示 “任意 文本 ”。 回 忆 
一 下 ， 人 句点 字符 表示 “换行 符 外 的 所 有 单个 字符 ”， 星 号 字符 表示 “前 面 字符 出 现 零 次 或 多 次 ”。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> nameRegex = re.compile(r'First Name: (.*) Last Name: (.*) ') 
>>> mo = nameRegex.search('First Name: Al Last Name: Sweigart') 
>>> mo.group(1) 

AE 

>>> mo.group(2) 

‘Sweigart' 


点 - 星 使 用 “贪心 ” 模式 : 它 总 是 匹配 尽 可 能 多 的 文本 。 要 用 “ 非 贪心 ” 模式 匹配 所 有 文本 ， 
斌 使 用 点 - 星 和 问号 ， 像 和 大 括号 一 起 使 用 时 那样 ， 问 号 告诉 Python 用 非 贪心 模式 匹配 。 
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在 交互 式 环境 中 输入 以 下 代码 ， 看 看 贪心 模式 和 非 贪心 模式 的 区 别 : 


>>> nongreedyRegex = re.compile(r'<.*?>") 

>>> mo = nongreedyRegex.search('<To serve man> for dinner.> ) 
>>> mo.group() 

'<To serve man>” 


>>> greedyRegex = re.compile(r'<.*>') 

>>> mo = greedyRegex.search('<To serve man> for dinner.>') 
>>> mo.group() 

'<To serve man> for dinner.>' 


两 个 正则 表达 式 都 可 以 翻译 成 “匹配 一 个 左 尖 括号 ， 接 下 来 是 任意 字符 ， 然 后 是 一 个 右 尖 
括号 ”。 但 是 字符 串 '<To serve man> for dinner.>' 对 右 尖 插 号 有 两 种 可 能 的 匹配 。 在 非 
贪心 的 正则 表达 式 中 ，Python 匹配 最 短 可 能 的 字符 串 : '<To serve man>'。 在 贪心 的 正则 表 
达 式 中 ，Python 匹配 最 长 可 能 的 字符 串 : '<To serve man> for dinner.>'。 


7.9.2 用 句点 字符 匹配 换行 符 


点 - 星 将 匹配 换行 符 外 的 所 有 字符 。 传 入 re.DOTALL 作为 re.compile() 的 第 二 个 参数 ， 
可 以 让 句点 字符 匹配 所 有 字符 ， 包 括 换 行 符 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> noNewlineRegex = re.compile('.*') 

>>> noNewlineRegex.search('Serve the public trust.\nProtect the innocent. 
\nUphold the law.').group() 

'Serve the public trust.' 


>>> newlineRegex = re.compile('.*', re.DOTALL) 

>>> newlineRegex.search('Serve the public trust.\nprotect the innocent. 
\nUphold the law.').group() 

'Serve the public trust.\nProtect the innocent.\nUphold the law.' 


正则 表达 式 noNewlineRegex 在 创建 时 没有 向 re .compile() 传 入 re .DOTALL， 它 将 匹配 
所 有 字符 ， 直 到 出 现 第 一 个 换行 符 。 但 是 ，newlineRegex 在 创建 时 间 re.compile() 传 入 了 
re .DOTALL， 它 将 匹配 所 有 字符 。 这 就 是 为 什么 newlineRegex. search()[ 匹 配 完整 的 字符 串 ， 
包括 其 中 的 换行 符 。 


7.10 ”正则 表达 式 符 号 复习 


本 章 介 绍 了 许多 表示 法 ， 这 里 快速 复习 一 下 学 到 的 内 容 。 
口 ?匹配 零 次 或 一 次 前 面 的 分 组 。 

口 * 匹 配 零 次 或 多 次 前 面 的 分 组 。 

口 + 匹配 一 次 或 多 次 前 面 的 分 组 。 

口 {n} 匹 配 n 次 前 面 的 分 组 。 

口 {n,} 匹 配 n 次 或 更 多 次 前 面 的 分 组 。 

口 {,m} 匹 配 零 次 到 m 次 前 面 的 分 组 。 
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口 {n,m} 匹 配 至 少 n 次 、 至 多 mn 次 前 面 的 分 组 。 

口 {n,m}?、*?3 或 +? 对 前 面 的 分 组 进行 非 贪心 匹配 。 

口 “spanm 意味 着 字符 串 必 须 以 spam 开始 。 

口 spam$ 意 味 着 字符 串 必须 以 spam 结束 。 

口 .匹配 所 有 字符 ， 换 行 符 除外 。 

口 \d、\w 和 \s 分 别 匹配 数字 、 单 词 和 空格 。 

口 \D、\W 和 \S 分 别 匹配 数字 、 单 词 和 空格 外 的 所 有 字符 。 
口 [abc] 匹 配方 括号 内 的 任意 字符 〈 如 wa、z2 或 c)。 

口 [^abc] 匹 配 不 在 方 括号 内 的 任意 字符 。 


7.11 不 区 分 大 小 与 的 匹配 


通常 ， 正 则 表达 式 用 你 指定 的 大 小 写 匹配 文本 。 例 如 ， 下 面 的 正则 表达 式 匹 配 完 全 不 同 的 
字符 串 : 

>>> regex1 = re.compile('RoboCop') 

>>> regex2 = re.compile('ROBOCOP') 


>>> regex3 = re.compile('robOcop') 
>>> regex4 = re.compile('RobocOp') 


但 是 ， 有 时 候 你 只 关心 匹配 的 字母 ， 不 关心 它们 是 大 写 还 是 小 写 。 要 让 正则 表达 式 不 区 分 
大 小 写 ， 可 以 加 re.compile() 传 入 re.IGNORECASE 或 re.I 作为 第 二 个 参数 。 在 交互 式 环 
境 中 输入 以 下 代码 : 


>>> robocop = re.compile(r'robocop', re.I) 
>>> robocop.search('RoboCop is part man, part machine, all cop.').group() 
'RoboCop’' 


>>> robocop.search('ROBOCOP protects the innocent.').group() 
'ROBOCOP' 


>>> robocop.search('Al, why does your programming book talk about robocop so much?').group() 
“robocop， 


7.12 用 sub() 方 法 替换 字符 串 


正则 表达 式 不 仅 能 找到 文本 模式 , 而 且 能 够 用 新 的 文本 蔡 换 掉 这 些 模式 。 Regex 对 象 的 sub() 
方法 需要 传 入 两 个 参数 。 第 一 个 参数 是 一 个 字符 申 ， 用 于 替换 发 现 的 匹配 。 第 二 个 参数 是 一 个 字符 
串 ， 即 正则 表达 式 。sub ( ) 方 法 返回 替换 完成 后 的 字符 串 。 

例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 

>>> namesRegex = re.compile(r'Agent \w+') 


>>> namesRegex.sub('CENSORED', ‘Agent Alice gave the Secret documents to Agent Bob.') 
“CENSORED gave the secret documents to CENSORED.' 


有 时 候 ， 你 可 能 需要 使 用 匹配 的 文本 本 身 作 为 替换 的 一 部 分 。 在 sub( ) 方 法 的 第 一 个 参数 
中 ， 可 以 输入 \1、\2、\3， 表 示 “ 在 替换 中 输入 分 组 1、2、3 的 文本 ”。 
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例如 ， 假 定 想 要 隐 去 某 些 人 的 姓名 ， 只 显示 他 们 姓名 的 第 一 个 字母 。 要 做 到 这 一 点 ， 可 以 使 
用 正则 表达 式 Agent (\w) \w*， 传 入 r'\1****'! 作 为 sub() 方 法 的 第 一 个 参数 。 字 符 串 中 的 
\1 将 由 分 组 1 匹配 的 文本 所 替代 ， 也 就 是 正则 表达 式 的 (\w) 分 组 : 


>>> agentNamesRegex = re.compile(r'Agent (\w)\w*') 

>>> agentNamesRegex.sub(r'\1****', 'Agent Alice told Agent Carol that Agent 
Eve knew Agent Bob was a double agent.') 

A**** told C**** that E**** knew B**** was a double agent.” 


7.13 ”管理 复杂 的 正则 表达 式 


如 果 要 匹配 的 文本 模式 很 简单 ， 那 么 使 用 正则 表达 式 就 很 好 。 但 匹配 复杂 的 文本 模式 ， 可 
能 需要 长 的 、 令 人 费解 的 正则 表达 式 。 你 可 以 告诉 re.compile() 忽 略 正则 表达 式 字 符 串 中 的 
空白 符 和 注释 ， 从 而 缓解 这 一 点 。 要 实现 这 种 详细 模式 ， 可 以 癌 re.compile() 传 入 变量 
re.VERBOSE 作为 第 二 个 参数 。 

现在 ， 不 必 使 用 这 样 难以 阅读 的 正则 表达 式 : 


phoneRegex = re.compile(r'((\d{3}|\(\d{3}\))?(\s|-|\.)?\d{3}(\s|-|\.)\d{4} 
(\s*(ext|x|ext.)\s*\d{2,5})?)') 


你 可 以 将 正则 表达 式 放 在 多 行 中 ， 并 加 上 注释 ， 像 这 样 : 
phoneRegex = re.compile(r'''( 


(\d{3}1\(\d{3}\))? # area code 
《本 | 人 # Separator 


\d{3} # first 3 digits 
(CNB >A # separator 
\d{4} # last 4 digits 
(\s*(ext|x|ext.)\s*\d{2,5})? # extension 

)''',， re.VERBOSE) 


请 注意 ， 前 面 的 例子 使 用 三 重 引 号 (''' ) 创 建 了 一 个 多 行 字符 串 ， 这 样 就 可 以 将 正则 表达 
式 定义 放 在 多 行 中 ， 让 它 更 具 可 读 性 。 

正则 表达 式 字 符 串 中 的 注释 规则 与 普通 的 Python 代码 一 样 : # 符 号 和 它 后 面 直到 行 末 的 内 容 都 
被 忽略 。 而 且 ， 在 表示 正则 表达 式 的 多 行 字 符 串 中 ， 多 余 的 空白 字符 也 不 认为 是 要 匹配 的 文本 模式 
的 一 部 分 。 这 让 你 能 够 组 织 正则 表达 式 ， 让 它 更 具 可 读 性 。 


7.14 ”组 合 使 用 re.IGNORECASE、re.DOTALL 和 re.VERBOSE 


如 果 你 希望 在 正则 表达 式 中 使 用 re .VERBOSE 来 编写 注释 ， 还 希望 使 用 re .IGNORECASE 
来 忽略 大 小 写 ， 该 怎么 办 ?遗憾 的 是 ，re .compile() 函 数 只 接收 一 个 值 作 为 它 的 第 二 参数 。 
可 以 使 用 管道 字符 (| ) 将 变量 组 合 起 来 ， 从 而 绕 过 这 个 限制 。 管 道 字 符 在 这 里 称 为 “ 按 位 或 ” 
操作 符 。 

所 以 ， 如 果 和 希望 正则 表达 式 不 区 分 大 小 写 ， 并 且 句 点 字符 匹配 换行 待 ， 就 可 以 这 样 构 ; 
re.compile() 调 用 : 


>>> SomeRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL) 


上 
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使 用 第 二 个 参数 的 3 个 选项 ， 看 起 来 像 这 样 : 


>>> someRegexValue = re.compile('foo', re.IGNORECASE | re.DOTALL | re.VERBOSE) 


这 个 语法 有 一 点 儿 老 ， 源 自 早期 的 Python 版本。 位 运算 符 的 细节 超出 了 本 书 的 范围 ， 更 多 
的 信息 请 查看 No Starch 出 版 社 官网 本 书 的 对 应 页 面 。 可 以 向 第 二 个 参数 传 入 其 他 选项 , 它们 不 
常用 ， 你 可 以 在 前 面 的 资源 中 找到 有 关 它 们 的 信息 。 


7.15 项目: 电话 号 码 和 E-mail 地 址 提取 程序 


假设 你 有 一 个 任务 : 要 在 一 篇 长 的 网 页 或 文章 中 ， 找 出 所 有 的 电话 号 码 和 E-mail 地 址 。 如 
果 手 动 翻 页 ， 可 能 需要 得 找 很 长 时 间 。 如 果 有 一 个 程序 ， 可 以 在 前 贴 板 的 文本 中 查找 电话 号 码 
和 E-mail 地 址 ， 那 你 就 只 要 按 Ctrl-A 快捷 键 选择 所 有 文本 ， 再 按 Ctrl-C 快捷 键 将 它 复 制 到 前 贴 
板 ， 然 后 运行 你 的 程序 ， 它 就 会 用 找到 的 电话 号 码 和 E-mail 地 址 替换 掉 前 贴 板 中 的 文本 。 

当 你 开始 接手 一 个 新 项 目 时 ， 很 容易 想 要 直接 开始 写 代 码 。 但 更 多 的 时 候 ， 最 好 是 后 退 一 
步 ， 考 虑 更 大 的 图 景 。 我 建议 先 草拟 高 层次 的 计划 ， 弄 清楚 程序 需要 做 什么 。 暂 时 不 要 思考 真 
正 的 代码 ， 稍 后 再 来 考虑 。 现 在 ， 先 关注 大 框架 。 

例如 ， 你 的 电话 号 码 和 E-mail 地 址 提取 程序 需要 完成 以 下 任务 。 

1. 从 剪贴 板 取得 文本 。 

2. 找 出 文本 中 所 有 的 电话 号 码 和 E-mail 地 址 。 

3. 将 它们 粘贴 到 剪贴 板 。 

现在 你 可 以 开始 思考 如 何 用 代码 来 完成 工作 。 代 码 需要 执行 以 下 操作 。 

1. 使 用 pyperclip 模块 复制 和 粘贴 字符 串 。 

2. 创建 两 个 正则 表达 式 ， 一 个 匹配 电话 号 码 ， 另 一 个 匹配 E-mail 地 址 。 

3. 对 两 个 正则 表达 式 ， 找 到 所 有 的 匹配 ， 而 不 只 是 第 一 次 匹配 。 

4. 将 匹配 的 字符 串 整理 好 格式 放 在 一 个 字符 串 中 ， 用 于 粘贴 。 

”5. 如 果 文 本 中 没有 找到 匹配 ， 则 显示 某 种 消息 。 

这 个 列表 就 像 项 目的 路 线 图 。 在 编写 代码 时 ， 可 以 独立 地 关注 其 中 的 每 一 步 。 每 一 步 都 很 

好 管理 。 它 的 表达 方式 让 你 知道 在 Python 中 如 何 去 做 。 


第 1 步 : 为 电话 号 码 创建 一 个 正则 表达 式 


首先 ， 你 需要 创建 一 个 正则 表达 式 来 查找 电话 号 码 。 创 建 一 个 新 文件 ， 输 入 以 下 代码 ， 保 
存 为 phoneAndEmail.py: 


#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard. 


import pyperclip, re 


phoneRegex = re.compile(r'''!l 
(\d{3}|\(\d{3}\))? # area code 
(\s|-|\.)? # separator 
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(\d{3}) # first 3 digits 
人 和 -让 # separator 
(\d{4}) # last 4 digits 


(\s*(ext|x|lext.)\s*(\d{2,5}))? # extension 
)''', re.VERBOSE) 


# TODO: Create email regex. 
# TODO: Find matches in clipboard text. 


# TODO: Copy results to the clipboard. 


T0D0 注释 仅仅 是 程序 的 框架 。 当 编写 真正 的 代码 时 ， 它 们 会 被 蔡 换 掉 。 

电话 号 码 从 一 个 “可 选 的 ”区 号 开始 ， 所 以 区 号 分 组 跟着 一 个 问号 。 因 为 区 号 可 能 只 是 3 
个 数字 〈 即 \d{3} )， 或 括号 中 的 3 个 数字 〈 即 \(\d{f3}\) )， 所 以 应 该 用 管道 符号 连接 这 两 部 
分 。 可 以 对 这 部 分 多 行 字 符 串 加 上 正则 表达 式 注释 # area code， 帮 助 你 记忆 
(\d{3}|\(\d{3}\))? 要 匹配 的 是 什么 。 

电话 号 码 分 隔 字符 可 以 是 空格 〈\s)、 短 横 线 〈- ) 或 句点 〈. )， 所 以 这 些 部 分 也 应 该 用 管 
道 符号 连接 。 这 个 正则 表达 式 接 下 来 的 几 部 分 很 简单 : 3 个 数字 ， 另 一 个 分 隔 符 ， 然 后 是 4 个 
数字 。 最 后 的 部 分 是 可 选 的 分 机 号 , 包括 任意 数目 的 空格 , 接着 ext、x 或 ext .， 再 接着 是 2 一 
5 位 数字 。 


注意 : 很 容易 混淆 包含 带 括号 ( ) 和 转 义 括号 \(、\) 的 分 组 的 正则 表达 式 。 如 果 收 到 “ymissing )，unterminated 
subpattern” 错 误 信 息 ， 请 记 住 再 次 检查 是 否 使 用 了 正确 的 括号 。 


第 2 步 : 为 E-mail 地 址 创建 一 个 正则 表达 式 
还 需要 一 个 正则 表达 式 来 匹配 E-mail 地 址 。 让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard . 


import pyperclip, re 


phoneRegex = re.compile(r'''l( 
~--SN1ip-- 


# Create email regex. 
emailRegex = re.compile(r'''l( 
©@ [a-zA-Z20-9. %+-]+ # Username 


©e # @ Symbol 
© [a-zA-Z0-9.-]+ # domain name 
(\.[a-zA-Z]{2,4}) # dot-something 


)''', re.VYVERBOSE) 
# TODO: Find matches in clipboard text. 
# TODO: Copy results to the clipboard. 
E-mail 地 址 的 用 户 名 部 分 @ 是 一 个 或 多 个 字符 ， 字 符 可 以 包括 小 写 和 大 写字 母 、 数 字 、 句 
点 、 下 划 线 、 百 分 号 、 加 号 或 短 横 线 。 可 以 将 这 些 全 部 放 入 一 个 字符 分 类 : [a-zA-Z0-9._%+-]。 
域名 和 用 户 名 用 @ 符 号 分 隔 @@， 域 名 四 允许 的 字符 分 类 要 少 一 些 ， 只 允许 字母 、 数 字 、 句 
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点 和 短 横 线 : [a-zA-Z0-9. -]。 最 后 是 “dot-com” 部 分 (技术 上 称 为 “顶级 域名 ”)， 它 实际 
上 可 以 是 “dot-anything”， 有 2 一 4 个 字符 。 

E-mail 地 址 的 格式 有 许多 奇怪 的 规则 。 这 个 正则 表达 式 不 会 匹配 所 有 可 能 的 .有效 的 E-mail 
地 址 ， 但 它 会 匹配 你 遇 到 的 大 多 数 典 型 的 E-mail 地 址 。 


第 3 步 : 在 剪贴 板 文 本 中 找到 所 有 匹配 


既然 已 经 指定 了 电话 号 码 和 E-mail 地 址 的 正则 表达 式 ， 就 可 以 让 Python 的 re 模块 做 辛苦 
的 工作 : 查找 剪贴 板 文本 中 所 有 的 匹配 。pyperclip.paste( ) 函数 将 取得 一 个 字符 串 ， 内 容 
是 剪贴 权 上 的 文本 ，findal1l() 正 则 表达 式 方 法 将 返回 一 个 元 组 的 列表 。 

让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard. 


import pyperclip, re 


phoneRegex = re.compile(r'''( 
~- -SNip-- 


# Find matches in clipboard text. 
text = str(pyperclip.paste()) 


© matches = 
@ for groups in phoneRegex.findall(text): 
phoneNum = '-'.join([groups[1], groups[3], groups[5]]) 
if groups[8] != "'': 
phoneNum += ' x' + groups[8] 
matches .append(phoneNum) 
© for groups in emailRegex.findall(text): 
matches.append(groups[0]) 


# TODO: Copy results to the clipboard. 


每 个 匹配 对 应 一 个 元 组 ， 每 个 元 组 包含 正则 表达 式 中 每 个 分 组 的 字符 串 。 回 忆 一 下 ， 因 为 分 


组 0 匹配 整个 正则 表达 式 ， 所 以 在 元 组 索引 0 处 的 分 组 就 是 你 感 兴趣 的 内 容 。 

在 @ 处 可 以 看 到 ， 你 将 所 有 的 匹配 保存 在 名 为 matches 的 列表 变量 中 。 它 从 一 个 空 列表 开 
始 ， 经 过 几 个 for 循环 。 对 于 E-mail 地 址 ， 你 将 每 次 匹配 的 分 组 0 添加 到 列表 中 @。 对 于 匹 
配 的 电话 号 码 ， 你 不 想 只 是 添加 分 组 0。 虽 然 程 序 可 以 “检测 ” 几 种 不 同形 式 的 电话 号 码 ， 但 
你 希望 添加 的 电话 号 码 是 唯一 的 、 标 准 的 格式 。phoneNum 变量 包含 一 个 字符 串 ， 它 由 匹配 文 
本 的 分 组 1、3、5 和 8 构成 @。( 这 些 分 组 是 区 号 、 前 3 个 数字 、 后 4 个 数字 和 分 机 号 。) 


第 4 步 : 将 所 有 匹配 连接 成 一 个 字符 串 ， 复 制 到 剪贴 板 


现在 ，E-mail 地 址 和 电话 号 码 已 经 作为 字符 串 列表 放 在 matches 中 ， 你 希望 将 它们 复制 
到 剪贴 板 。pyperclip.copy() 函 数 只 接收 一 个 字符 串 值 ， 而 不 是 字符 串 的 列表 ， 因 此 需要 在 
matches 上 调用 join() 方 法 。 

为 了 更 容易 看 到 程序 在 工作 ， 让 我 们 将 所 有 找到 的 匹配 都 输出 在 命令 行 窗 口上 。 如 果 没 有 
找到 电话 号 码 或 E-mail 地 址 ， 程 序 应 该 发 出 信息 告诉 用 户 。 
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让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# phoneAndEmail.py - Finds phone numbers and email addresses on the clipboard. 


--SNip-- 
for groups in emailRegex.findall (text): 
matches.append(groups[0]) 


# Copy results to the clipboard. 
if len(matches) > 0: 
pyperclip.copy('\n' .join(matches) ) 
print('Copied to clipboard:') 
print('\n' .join(matches)) 
else: 
print('No phone numbers or email addresses found.') 


第 5 步 : 运行 程序 


一 个 例子 : 打开 你 的 Web 浏览 器 ， 访 问 No Starch 出 版 社 官网 的 联系 页 面 ， 按 Ctrl-A 快捷 键 
选择 该 页 的 所 有 文本 , 按 Ctrl-C 快捷 键 将 它 复制 到 剪贴 板 。 运 行 这 个 程序 , 输出 结果 看 起 来 像 这 样 : 


Copied to clipboard : 
800-420-7240 
415-863-9900 
415-863-9950 
info@nostarch.com 
media@nostarch.com 
academic@nostarch.com 
help@nostarch.com 


第 6 步 : 类 似 程序 的 构想 


识别 文本 的 模式 〈 并 且 可 能 用 sub ( ) 方 法 替换 它们 ) 有 许多 不 同 潜在 的 应 用 。 

口 寻找 网 站 的 URL， 它 们 以 http:1 或 https:W 开 始 。 

口 整理 不 同日 期 格式 的 日 期 (如 3/14/2015、03-14-2015 和 2015/3/14)， 用 唯一 的 标准 格式 
替代 。 

口 删除 敏感 的 信息 ， 如 社会 保险 号 或 信用 卡号 。 

口 寻找 常见 打字 错误 ， 如 单词 间 的 多 个 空格 、 不 小 心 重 复 的 单词 或 句子 末尾 处 多 出 的 感叹 号 。 


7.16 小结 


虽然 计算 机 可 以 很 快 地 查找 文本 ， 但 你 必须 精确 地 告诉 它 要 找 什 么 。 正 则 表达 式 让 你 可 以 
精确 地 指明 要 找 的 文本 模式 。 实 际 上 ， 某 些 文字 处 理 和 电子 表格 应 用 也 提供 了 查找 替换 功能 ， 
让 你 使 用 正则 表达 式 进行 查找 。 

Python 目 带 的 re 模块 可 让 你 编译 Regex 对 象 。 该 对 象 有 几 种 方法 : search( ) 方 法 碍 找 
单词 匹配 ，findal1() 方 法 查找 所 有 匹配 实例 ，sub ( ) 方 法 对 文本 进行 查找 和 替换 。 

你 可 以 在 Python 官方 文档 中 找到 更 多 内 容 。 
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a 


5 


习题 


创建 Regex 对 象 的 函数 是 什么 ? 

在 创建 Regex 对 象 时 ， 为 什么 常用 原始 字符 串 ? 
search( ) 方 法 返回 什么 ? 

通过 Match 对 象 如 何 得 到 匹配 该 模式 的 实际 字符 串 ? 


5. 在 用 r'(\d\d\d)-(\d\d\d-\d\d\d\d)' 创 建 的 正则 表达 式 中 , 分 组 0 表示 什么 ? 分 
组 1 表示 什么 ? 分 组 2 表示 什么 ? 

6. 插 号 和 句点 在 正则 表达 式 语 法 中 有 特殊 的 含义 。 如何 指定 正则 表达 式 匹 配 真 正 的 括号 和 
人 名 点 字符? 


Rs 


种 返回 ? 


8. 
人 


10. 
.在 正则 表达 式 中 ，\d、\w 和 \s 缩写 字符 类 是 什么 意思 ? 
.在 正则 表达 式 中 ，\D、\W 和 \S 缩写 字符 类 是 什么 意思 ? 
: .* 和 *? 之 间 的 区 别 是 什么 ? 

15. 
16. 
v8 


findall() 方 法 返回 一 个 字符 串 的 列表 或 字符 串 的 元 组 的 列表 。 是 什么 决定 它 提供 哪 国 | 
f 


在 正则 表达 式 中 ，| 字 符 表 示 什 么 意思 ? 

在 正则 表达 式 中 ，? 字 符 有 哪 两 种 含义 ? 

在 正则 表达 式 中 ，+ 和 * 字 符 之 间 的 区 别 是 什么 ? 
在 正则 表达 式 中 ，{3} 和 {3,5} 之 间 的 区 别 是 什么 ? 


匹配 所 有 数字 和 小 写字 母 的 字符 分 类 语法 是 什么 ? 
如 何 让 正则 表达 式 不 区 分 大 小 写 ? 
字符 .通常 匹配 什么 ? 如 果 re.DOTALL 作为 第 二 个 参数 传递 给 re .compile(), 它 会 


匹配 什么 ? 
18. 如果 numRegex=re.compile(r'\d+'), 那 么 numRegex.sub('X', '12 drummers ， 
11 pipers，five rings，3 hens') 返 回 什 么 ? 


人 
20. 


DD 
a 
口 


将 re .VERBOSE 作为 第 二 个 参数 传递 给 re.compile()， 让 你 能 做 什么 ? 
写 一 个 正则 表达 式 匹 配 每 3 位 就 有 一 个 逗号 的 数字 。 它 必须 匹配 以 下 数字 : 
a 

4 

16 ,368 ,745， 


但 不 会 匹配 以 下 数字 : 


口 
口 


4 四 


'12,34,567' (逗号 之 间 只 有 两 位 数字 ) 
'1234' (缺少 逗号 ) 
写 一 个 正则 表达 式 匹 配 姓 为 Nakamoto 的 完整 姓名 。 你 可 以 假定 名 字 总 是 出 现在 姓 前 


面 ， 是 一 个 大 写字 母 开 头 的 单词 。 该 正则 表达 式 必 须 匹 配 : 


口 


'Satoshi Nakamoto' 
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DQ 'Alice Nakamoto' 

DQ 'RoboCop Nakamoto' 

但 不 匹配 : 

口 'satoshi Nakamoto' (名 字 没 有 首 字 母 大 写 ) 

口 'MFr。Nakamoto' (前 面 的 单词 包含 非 字 母 字 符 ) 

口 'Nakamoto' (没有 名 字 ) 

口 'Satoshi nakamoto' ( 姓 没 有 首 字母 大 写 ) 

22. 编写 一 个 正则 表达 式 来 匹配 一 个 句子 ， 它 的 第 一 个 词 是 Alice、Bob 或 Carol， 第 二 个 
词 是 eats、pets 或 throws， 第 三 个 词 是 apples、cats 或 baseballs。 该 句子 以 句点 结束 。 这 个 正则 
表达 式 不 区 分 大 小 写 。 它 必须 匹配 : 

'Alice eats apples.' 

"Bob pets Cats。 

'Carol throws baseballs.' 
'Alice throws Apples.' 
'BOB EATS CATS.' 

但 不 匹配 : 

DQ 'RoboCop eats apples.' 

DQ 'ALICE THROWS FOOTBALLS.' 
DD 'Carol eats 7 cats.' 


7.18 ”实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 


中 让 和 


7.18.1 日 期 检测 


编写 一 个 正则 表达 式 ， 可 以 检测 DD/MM/YYYY 格式 的 日 期 。 假 设 日 期 的 范围 是 01 一 31， 
月 份 的 范围 是 01 一 12， 年 份 的 范围 是 1000 一 2999。 请 注意 ， 如 果 日 期 或 月 份 是 一 位 数字 ， 会 在 
前 面 自动 加 0。 

该 正则 表达 式 不 必 检 测 每 个 月 或 国 年 的 正确 日 期 ; 它 将 接受 不 存在 的 日 期 , 例如 31/02/2020 
或 31/04/2021。 然 后 将 这 些 字符 串 存储 到 名 为 month、day 和 year 的 变量 中 ， 并 编写 其 他 代 
码 以 检测 它 是 否 为 有 效 日 期 。4 月 、6 月 、9 月 和 11 月 有 30 天 ，2 月 有 28 天 ， 其 余 月 份 为 31 
天 。 图 年 2 月 有 29 天 。 半年 是 能 被 4 整除 的 年 , 能 被 100 整除 的 年 除外 ,除非 它 能 被 400 整除 。 
这 种 计算 使 得 用 大 小 合理 的 正则 表达 式 来 检测 有 效 日 期 成 为 不 可 能 的 事 ， 请 注意 原因 。 


7.18.2 强 口令 检测 
写 一 个 函数 ， 使 用 正则 表达 式 ， 确 保 传 入 的 口令 字符 串 是 强 口 令 。 强 口令 的 定义 是 : 长 度 
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不 少 于 8 个 字符 ， 同 时 包含 大 写 和 小 写字 符 ， 至 少 有 一 位 数字 。 你 可 能 需要 用 多 个 正则 表达 式 
来 测试 该 字符 串 ， 以 保证 它 的 强度 。 


7.18.3 strip() 的 正则 表达 式 版 本 


写 一 个 函数 ， 它 接收 一 个 字符 串 ， 做 的 事情 和 strip() 字 符 串 方法 一 样 。 如 果 只 传 入 了 要 
去 除 的 字符 串 ， 没 有 其 他 参数 ， 那 么 就 从 该 字符 串 的 首尾 去 除 空白 字符 ， 否 则 ， 函 数 第 二 个 参 
数 指定 的 字符 将 从 该 字符 串 中 去 除 。 


输入 验证 


“输入 验证 ”代码 检查 用 户 输入 值 ( 例 如 ，input() 子 数 中 的 文本 ) 
的 格式 是 否 正确 。 例 如 ， 如 果 你 希望 用 户 输入 年 龄 ， 那 么 代码 不 应 该 接受 
无 意义 的 答案 ， 例 如 负数 (超出 可 接受 的 整数 范围 ) 或 单词 (数据 类 型 错 
误 )。 输 入 验证 还 可 以 防止 错误 或 安全 漏洞 。 如 果 编 写 一 个 
withdrawFromAccount ( ) 函数 ， 该 函数 接收 一 个 套数 ， 
表示 要 从 账户 中 减 去 的 金额 ， 那 么 需要 确保 金额 为 正 数 。 
如 果 WithdrawFromAccount () 函数 从 账户 中 减 去 负 
数 ， 那 么 “ 提 款 ”最 后 会 变 成 “存款 。 

通常 ， 我 们 决 行 输入 验证 的 方式 是 反复 要 求 用 户 输入 ， 直 到 他 们 输入 有 
效 的 文本 ， 如 下 所 示 : 


while True: 

print('Enter your age:') 

age = input() 

Cry: 
age = int(age) 

except: 
print('Please use numeric digits.') 
continue 

if age < 1: 
print('Please enter a positive number.') 


continue 
break 


print(f'Your age is {age}.') 
运行 这 个 程序 ， 输 出 结果 可 能 如 下 所 示 : 


Enter your age: 

five 

Please use numeric digits. 
Enter your age: 

-2 

Please enter a positive number. 
Enter your age: 

30 

Your age is 30. 


运行 这 段 代 码 ， 系 统 会 提示 你 输入 年 龄 ， 直 到 你 输入 有 效 的 年 龄 为 止 。 这 样 可 以 确保 在 执 
行 退 出 while 循环 时 ，age 变量 包含 有 效 值 ， 以 后 不 会 使 程序 毅 泪 。 

但 是 ， 为 程序 中 的 每 个 input ( ) 调 用 编写 输入 验证 代码 会 很 乏味 。 此 外 ， 你 可 能 会 遗漏 匠 些 情 
况 ， 并 人 允许 无 效 输入 通过 检查 。 在 本 章 中 ， 你 将 学 习 如 何 使 用 第 三 方 PyInputPlus 模块 进行 输入 验证 。 
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8.1 PylnputPlus 模块 


PyInputPlus 包含 与 input() 类 似 的 、 用 于 多 种 数据 (如 数字 、 日 期 、 E-mail 地 址 等 ) 的 函 
数 。 如 采用 户 输入 了 无 效 的 内 容 ， 例 如 格式 错误 的 日 期 或 超出 预期 范围 的 数字 ， 那 么 PyInputPlus 
会 再 次 提示 他 们 输入 。PyInputPlus 还 包含 其 他 有 用 的 功能 ， 例 如 提示 用 户 的 次 数 限制 和 时 
间 限 制 〈 如 果 要 求 用 户 在 时 限 内 做 出 响应 )。 

PyInputPlus 不 是 Python 标准 库 的 一 部 分 , 因此 必须 利用 pip 单独 安装 。 要 安装 PyInputPlus， 
请 在 命令 行 中 运行 pip install --user pyinputplus。 附 录 A 包含 了 安装 第 三 方 模块 的 
完整 说 明 。 要 检查 PyInputPlus 是 否 正确 安装 ， 请 在 交互 式 环境 中 导入 它 : 


>>> import pyinputplus 


如 果 在 导入 该 模块 时 没有 出 现 错误 ， 就 表明 已 成 功 安装 。 

PyInputPlus 具有 以 下 几 种 用 于 不 同类 型 输入 的 函数 。 

inputStr() 类 似 于 内 置 的 input() 函 数 ， 但 具有 一 般 的 PyInputPlus 功能 。 你 还 可 以 
将 自 定 义 验 证 函数 传递 给 它 。 

inputNum( ) 确保 用 户 输入 数字 并 返回 int 或 float 值 ， 这 取决 于 数字 是 否 包含 小 数 点 。 

inputChoice( ) 确 保 用 户 输入 系统 提供 的 选项 之 一 。 

inputMenu() 与 ijnputChoice() 类 似 ， 但 提供 一 个 带 有 数字 或 字母 选项 的 菜单 。 

inputDatetime() 确 保 用 户 输入 日 期 和 时 间 。 

inputYesNo ( ) 确保 用 户 输入 “yes” 或 “no” 响 应。 

inputBool() 类 似 inputYesNo() ， 但 接收 “True” 或 “False” 响 应 ， 并 返回 一 个 布尔 值 。 

inputEmail() 确 保 用 户 输入 有 效 的 E-mail 地 址 。 

inputFilepath() 确 保 用 户 输 入 有 效 的 文件 路 径 和 文件 名 ， 并 可 以 选择 检查 是 否 存 在 具 
有 该 名 称 的 文件 。 

inputPassword() 类 似 于 内 置 的 input(), 但 是 在 用 户 输入 时 显示 * 字 符 ， 因 此 不 会 在 屏 
幕 上 显示 口令 或 其 他 敏感 信息 。 

只 要 输入 了 无 效 内 容 ， 这 些 函 数 就 会 自动 提示 用 户 : 


>>> import pyinputplus as pyip 
>>> response = pyip.inputNum() 
five 

Tive" i189 not a NUMmber. 


>>> response 
42 


每 次 要 调用 PyInputPlus 模块 的 函数 时 ，import 语句 中 的 as pyip 代码 让 我 们 不 必 输 
入 pyinputplus， 而 是 可 以 使 用 较 短 的 pyip 名 称 。 如 果 看 一 下 示例 ， 就 会 发 现 这 些 函 数 与 
input () 不 同 , 它们 返回 的 是 int 或 float 值 , 如 42 或 3.14, 而 不 是 字符 串 '42' 或 '3.14'。 

正如 可 以 将 字符 串 传 递 给 input () 以 提供 提示 一 样 ， 你 也 可 以 将 字符 串 传递 给 PyInputPlus 
模块 的 函数 的 prompt 关键 字 参 数 来 显示 提示 : 
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>>> response = input('Enter a number: “) 
Enter a number: 42 

>>> response 

| 

>>> import pyinputplus as pyip 

>>> response = pyip.inputInt(prompt='Enter a number: “) 
Enter a number: cat 

'cat' is not an integer. 

Enter a number: 42 

>>> response 

42 


请 使 用 Python 的 help() 函 数 查 找 有 关 这 些 函 数 的 更 多 信息 。 例 如 ，help(pyip. 
inputChoice) 显示 inputChoice() 函 数 的 帮助 信息 。 
与 Python 的 内 置 input ( ) 不 同 ，PyInputPlus 模块 的 函数 包含 一 些 用 于 输入 验证 的 附加 功能 。 


8.1.1 关键 字 参 数 min、max、greaterThan 和 lessThan 


接收 int 和 float 数 的 inputNum()、inputInt() 和 inputFloat() 函 数 还 具有 min、 
max、greaterThan 和 lessThan 关键 字 参 数 ， 用 于 指定 有 效 值 范围 。 例 如 ， 在 交互 式 环境 中 
输入 以 下 内 容 : 


>>> import pyinputplus as pyip 

>>> response = pyip.inputNum('Enter num: ', min=4) 
Enter num:3 

Input must be at minimum 4. 

Enter num:4 

>>> response 

4 

>>> response = pyip.inputNum('Enter num: ', greaterThan=4) 
Enter num: 4 

Input must be greater than 4. 

Enter num: 5 

>>> response 

5 

>>> response = pyip.inputNum('>', min=4, lessThan=6) 
Enter num: 6 

Input must be less than 6. 

Enter num: 3 

Input must be at minimum 4. 

Enter num: 4 

>>> response 

4 


这 些 关 键 字 参数 是 可 选 的 , 但 只 要 提供 ,输入 就 不 能 小 于 min 参数 或 大 于 max 参数 (但 输 
入 可 以 等 于 它们 )。 而 且 ， 输入 必须 大 于 greaterThan 且 小 于 lessThan 参数 (也 就 是 说 ， 输 
入 不 能 等 于 它们 )。 


8.1.2 ”关键 字 参 数 blank 
在 默认 情况 下 ， 除 非 将 blank 关键 字 参 数 设 置 为 True， 否则 不 允许 输入 空格 字符 : 


>>> import pyinputplus as pyip 

>>> _ response = pyip.inputNum( "Enter num: ') 
Enter num:fbjank input entered here) 
Blank values are not allowed. 
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Enter num: 42 
>>> response 


42 

>>> response = pyip.inputNum(blank=True) 
(blank input entered here) 

>>> response 


如 果 你 想 使 输入 可 选 ， 请 使 用 blank = True， 这 样 用 户 不 需要 输入 任何 内 容 。 
8.1.3 ”关键 字 参 数 limit、timeout 和 default 


在 默认 情况 下 ，PyInputPlus 模块 的 函数 会 一 直 (或 在 程序 运行 时 ) 要 求 用 户 提供 有 效 输 
入 。 如 果 你 希望 某 个 函数 在 经 过 一 定 次 数 的 尝试 或 一 定 的 时 间 后 停止 要 求 用 户 输 入 ， 就 可 以 使 
用 1imit 和 timeout 关键 字 参 数 。 用 1imit 关键 字 参 数 传递 一 个 整数 , 以 确定 PyInputPlus 
的 函数 在 放弃 之 前 尝试 接收 有 效 输入 多 少 次 。 用 timeout 关键 字 参 数 传递 一 个 整数 ， 以 确定 用 
户 在 多 少 秒 之 内 必须 提供 有 效 输入 ， 然 后 PyInputPlus 模块 的 函数 会 放弃 。 
如 果 用 户 未 能 提供 有 效 输入 ， 那 么 这 些 关 键 字 参数 将 分 别 导 致 函数 引发 RetryLimitException 
或 TimeoutException 寞 常 。 例 如 ， 在 交互 式 环境 中 输入 以 下 内 容 : 5 


>>> import pyinputplus as pyip 

>>> response = pyip.inputNum(1imit=2) 

blah 

'blah' is not a number. 

Enter num: number 

'number' is not a number. 

Traceback (most recent call last): 
--SNip-- 

pyinputplus.RetryLimitException 

>>> response = pyip.inputNum(timeout=10) 

42 (entered after 10 seconds of waiting) 

Traceback (most recent call last): 
-~-SNip-- 

pyinputplus.TimeoutException 


当 你 使 用 这 些 关 键 字 参数 并 传 入 default 关键 字 参 数 时 , 该 函数 将 返回 默认 值 , 而 不 是 引 
发 寞 第 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> response = pyip.inputNum(limit=2, default='N/A') 
hello 

'hello' is not a number. 

world 


'world' is not a number. 
>>> response 


inputNum( ) 函 数 不 会 引发 RetryLimitException， 只 会 返回 字符 串 'N/A'。 
8.1.4 ”关键 字 参 数 allowRegexes 和 blockRegexes 


尔 也 可 以 使 用 正则 表达 式 指 定 输入 是 否 被 接受 。 关 键 字 参 数 allowRegexes 和 blockRegexes 
利用 正则 表达 式 字 符 串 列表 来 确定 PyInputPlus 模块 的 函数 将 接受 或 拒绝 哪些 内 容 作 为 有 效 
输入 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 ， 使 得 inputNum( ) 函数 将 接收 罗马 数字 以 及 常规 
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数字 作为 有 效 输入 : 


>>> import pyinputplus as pyip 

>>> response = pyip.inputNum(allowRegexes=[r’ (I|IVIXILICIDIM)+', r'zero']) 
XLII 

>>> response 

"EEE 

>>> response = pyip.inputNum(allowRegexes=[r' (i|v|x|llilcld|lm)+', r'zero’]) 
Xlii 

>>> response 


当然 ， 这 个 正则 表达 式 仅 影响 inputNum( ) 函数 从 用 户 那 里 接收 的 字母 ; 该 函数 仍 会 接收 
具有 无 效 顺序 的 罗马 数字 ， 例 如 'XVX:' 或 'MILLI'， 因 为 5(IIVIXILICIDIM)+' 正 则 表达 式 
接收 这 些 字 符 串 。 

你 还 可 以 用 blockRegexes 关键 字 参 数 指定 PyInputPlus 模块 的 函数 不 接收 的 正则 表达 
式 字符 串 列表 。 在 交互 式 环境 中 输入 以 下 内 容 ， 使 得 inputNum ( ) 不 接收 偶数 作为 有 效 输 入 : 


>>> Import pyinputplus as pyip 

>>> response = pyip.inputNum(blockRegexes=[r' [02468]$']) 
42 

This responsse is invalid. 


This response is invalid. 
43 

>>> response 

43 


如 果 同 时 指定 allowRegexes 和 blockRegexes 参数 , 那么 允许 列表 将 优先 于 阻止 列表 。 
例如 ， 在 交互 式 环境 中 输入 以 下 内 容 ， 它 允许 使 用 'caterpillar' 和 'category'， 但 会 阻止 
包含 'cat ' 的 任何 其 他 内 容 : 


>>> import pyinputplus as pyip 

>>> response = pyip.inputStr(allowRegexes=[r'caterpillar', 'category'], 
blockRegexes=[r'cat']) 

cat 

This response is invalid. 

catastrophe 

This response is invalid. 

category 

>>> response 

“category 


PyInputPlus 模块 的 函数 可 以 避免 你 自己 编写 繁琐 的 输入 验证 代码 , 而 且 PyInputPlus 模 
块 的 功能 比 这 里 详细 介绍 的 更 多 。 


8.1.5 ”将 自 定义 验证 函数 传递 给 inputCustom(() 


你 可 以 编写 函数 以 执行 自 定义 的 验证 逻辑 ， 并 将 函数 传递 给 inputCustom( ) 。 例 如 ， 假 设 你 
希望 用 户 输入 一 系列 数字 , 这 些 数字 的 总 和 为 10。 虽然 没有 pyinputplus. inputAddsUpToTen () 
函数 ， 但 是 你 可 以 创建 自己 的 函数 ， 使 得 它 具 有 以 下 功能 。 

口 接收 单个 字符 串 参数 ， 即 用 户 输入 的 内 容 。 

口 如 果 字 符 串 验证 失败 ， 则 引发 异常 。 
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口 如 采 inputCustom() 应 该 返回 不 变 的 该 字符 串 ,， 则 返回 None (或 没有 return 语句 )。 

口 如 果 inputCustom() 返 回 的 字符 串 与 用 户 输 入 的 字符 串 不 同 ， 则 返回 非 None 值 。 

口 作为 第 一 个 参数 传递 给 inputCustom( ) 。 

例如 ， 我 们 可 以 创建 自己 的 addsUpToTen( ) 函数 ， 然 后 将 其 传递 给 inputCustom( ) 。 请 注 
意 ， 函 数 调 用 看 起 来 像 inputCustom(addsUpToTen) 而 不 是 inputCustom(addsUpToTen())， 
因为 我 们 是 将 addsUpToTen( ) 函数 本 身 传递 给 inputCustom( ) , 而 不 是 调用 addsUpToTen () 
并 传递 其 返回 值 : 


>>> Import pyinputplus as pyip 

>>> def addsUpToTen(numbers ) : 

..。 numbersList = list(numbers) 
. for i, digit in enumerate(numbersList): 

和 numbersList[i]l = int(digit) 
. if sum(numbersList) != 10: 

wil raise Exception('The digits must add up to 10, not %s.' % (sum(numbersList))) 
. return int(numbers) # Return an int form of numbers. 


>>> response = pyip.inputCustom(addsUpToTen) # No parentheses after addsUpToTen here . 
123 


The digits must add up to 10, not 6. 

1235 8 
The digits must add up to 10, not 11. 

1234 

>>> response # inputStr() returned an int, not a string. 

1234 

>>> response = pyip.inputCustom(addsUpToTen) 

hello 

invalid literal for int() with base 10: ‘'h'’ 

55 


>>> response 

inputCustom( ) 函数 还 支持 常规 的 PyInputPlus 功能 , 该 功能 可 通过 blank、1imit、timeout、 
default、allowRegexes 和 blockRegexes 关键 字 参 数 实现 。 如 果 很 难 或 不 可 能 编写 用 于 有 效 输 
入 的 正则 表达 式 〈 例 如 “加 起 来 等 于 10” 的 示例 )， 那 么 编写 自 定义 验证 函数 将 非常 有 用 。 


8.2 项目: 如 何 让 人 忙 几 小 时 


让 我 们 利用 PyInputPlus 创建 一 个 执行 以 下 操作 的 简单 程序 。 

1. 询问 用 户 是 否 想 知道 如 何 让 人 忙 几 小 时 。 

2. 如 果 用 户 回 答 no， 退 出 。 

3. 如 果 用 户 回 答 yes， 转 到 步骤 1。 

当然 ， 我 们 不 知道 用 户 是 否 会 输入 “yes” 或 “no” 以 外 的 内 容 ， 因 此 我 们 需要 执行 输入 验 
证 。 用 户 也 可 以 输入 “y” 或 “n”， 而 不 用 输入 完整 的 单词 。PyInputPlus 的 inputYesNo() 
水 数 将 为 我 们 处 理 此 问题 ， 无 论 用 户 输入 什么 大 小 写 ， 均 返回 小 写 的 'yes' 或 'no' 字 符 串 值 。 

运行 该 程序 时 ， 它 应 如 下 所 示 : 


Want to know how to keep a person busy for hours? 
SUre 

‘sure' is not a valid yes/no response. 

Want to know how to keep a person busy for hours? 
yes 

Want to know how to keep a person busy for hours? 
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y 

Want to know how to keep a person busy for hours? 

Yes 

Want to know how to keep a person busy for hours? 

YES 

Want to know how to keep a person busy for hours? 
YES!!!!11!! 

'YES!!!1!1!!' is not a valid yes/no response. 

Want to know how to keep a person busy for hours? 

TELL ME HOW TO KEEP A PERSON BUSY FOR HOURS. 
'TELL ME HOW TO KEEP A PERSON BUSY FOR HOURS.' is not a valid yes/no response. 
Want to know how to keep a person busy for hours? 

no 

Thank you. Have a nice day. 


打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 另 存 为 busypy。 然 后 输入 以 下 代码 : 


import pyinputplus as pyip 


这 将 导入 PyInputPlus 模块 ,由 于 pyinputplus 的 字母 比较 多 , 因此 我 们 将 使 用 简称 pyip。 


while True: | 
prompt = 'Want to know how to keep a person busy for hours?\n' 
response = pyip.inputYesNo(prompt) 


接 下 来 ，while True: 创建 了 一 个 无 限 循环 ， 该 循环 继续 运行 ， 直 到 遇 到 break 语句 。 
在 这 个 循环 中 ， 我 们 调用 pyip.inputYesNo()， 确 保 在 用 户 输入 有 效 答 案 之 前 该 函数 调用 不 
会 返回 : 


if response == “'no': 
break 


pyip.inputYesNo() 调 用 保证 仅 返 回 字 符 串 yes 或 no。 如果 返回 no， 那 么 程序 会 跳出 
无 限 循环 并 执行 最 后 一 行 ， 即 感谢 用 户 : 

print('Thank you. Have a nice day.') 

否则 ， 循 环 将 册 次 友 代 。 

你 还 可 以 传 入 yesVal 和 noVal 关键 字 参 数 ， 从 而 在 非 英 语 语言 中 使 用 inputYesNo ( ) 
函数 。 例 如 ， 该 程序 的 西班牙 语 版 本 将 包含 以 下 两 行 : 


prompt = “Quieres Saber como mantener 0cupado a una persona durante horas?\n' 
response = pyip.inputYesNo(prompt, yesVal='si', noval='no') 
if response == 'si': 


现在 ， 用 户 可 以 输入 si 或 s (大写 或 小 写 )， 而 不 是 yes 或 y 作为 肯定 的 答案 。 
8.3 项目: 乘法 测验 


PyInputPlus 的 功能 对 于 创建 定时 的 乘法 测验 很 有 用 。 通 过 为 pyip.inputStr() 设置 
allowRegexes、blockRegexes、timeout 和 1imit 关键 字 参 数 ， 你 可 以 用 PyInputPlus 实 
现 大 部 分 功能 。 浆 需要 编写 的 代码 越 少 ， 编 写 程 序 的 速度 就 越 快 。 让 我 们 创建 一 个 程序 ， 回 用 
户 提出 10 个 乘法 问题 ， 其 中 有 效 的 输入 是 问题 的 正确 答案 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 然 
后 将 文件 另存 为 multiplicationQuiz.py。 
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首先 ， 导 入 pyinputplus、random 和 time。 我 们 将 利用 变量 numberOofQuestions 和 
correctAnswers， 跟 踪 程 序 问 了 多 少 个 问题 以 及 用 户 给 出 了 多 少 正确 答案 。for 循环 将 反复 
产生 10 个 随机 乘法 问题 : 


import pyinputplus as pyip 
import random, time 


numberOfQuestions = 10 
correctAnswers = 0 
for questionNumber in range (numberOfQuestions): 


在 for 循环 内 ， 程 序 将 选择 两 个 个 位 数 相 乘 。 我 们 将 使 用 这 些 数字 ， 为 用 户 创建 一 个 #Q: 
NxN = 提示 ， 其 中 Q 是 问题 编号 (1 一 10)，N 是 要 相 乘 的 两 个 数字 : 


# Pick two random numbers: 
num1 = random.randint(0, 9) 


num2 = random.randint(0, 9) 


prompt = '#%s: %s x %s = ' % (questionNumber, num1， num2) 


pyip.inputStr() 函 数 将 实现 这 个 测验 程序 的 大 多 数 功 能 。 我 们 传 入 的 allowRegexes 


参数 是 一 个 列表 ， 包 含 正则 表达 式 字 符 串 '^%s $'， 其 中 %s 被 替换 为 正确 的 答案 。^ 和 $ 字 符 可 
确保 答案 以 正确 的 数字 开始 和 结束 ， 尽 管 PyInputPlus 会 从 用 户 响 应 的 开始 和 结束 处 消除 所 有 
空格 ， 以 防 他 们 无 意 间 按 了 空格 键 。 我 们 传 入 的 blocklistRegexes 参数 是 一 个 列表 ， 包 含 
('.*'，'Incorrect! ')。 元 组 中 的 第 一 个 字符 串 是 与 每 个 可 能 的 字符 串 匹 配 的 正则 表达 式 。 
因此 ， 如 果 用 户 的 回答 与 正确 答案 不 符 ， 该 程序 将 拒绝 他 们 提供 的 答案 。 在 这 种 情况 下 ， 将 显 
示 字 符 串 'Incorrect! '， 并 提示 用 户 再 次 回答 。 另 外 ,， 传 入 8 作为 timeout、3 作为 Limit， 
将 确保 用 户 只 有 8 秒 和 3 次 机 会 来 提供 正确 答案 : 


try: 
# Right answers are handled by allowRegexes. 
# Wrong answers are handled by blockRegexes, with a custom message. 
pyip.inputStr(prompt, allowRegexes=['“^%s$' % (num1 * num2)]， 
blockRegexes=[('.*', 'Incorrect!')], 
timeout=8, limit=3) 


如 果 用 户 在 8 秒 后 回答 ,即使 回答 正确 ,pyip.inputStr() 也 会 引发 TimeoutException 


异常 。 如 果 用 户 错误 地 回答 了 3 次 以 上 ， 则 会 引发 RetryLimitException 异常 。 这 两 种 异常 
类 型 都 在 PyInputPlus 模块 中 ， 因 此 需要 在 它们 前 面 添加 pyip.: 


except pyip.TimeoutException: 
print('Out of time!') 

except pyip.RetryLimitException: 
print('out of tries!') 


请 记 住 ， 就 像 else 块 可 以 跟随 if 或 elif 块 一 样 ， 它 们 可 以 有 选择 地 跟随 上 一 个 except 


块 。 如 果 try 块 中 没有 引发 异常 ， 则 后 面 的 else 块 中 的 代码 将 运行 。 在 我 们 的 例子 中 ， 这 意 
味 着 如 果 用 户 输入 正确 的 答案 ， 代 人 码 就 会 运行 : 


else: 
# This block runs if no exceptions were raised in the try block. 
print('Correct!') 


156 第 8 章 输入 验证 


correctAnswers += 1 
无 论 显 示 “Out of time!”“Out of try!” 或 “Correct!” 这 3 个 消息 中 的 哪 一 个 ， 我 们 都 在 
for 循环 的 末尾 放置 1 秒 的 暂停 时 间 , 以 使 用 户 有 时 间 阅 读 消 息 。 在 程序 问 了 10 个 问题 并 且 for 
循环 完成 之 后 ， 向 用 户 展示 他 们 提供 了 多 少 正确 答案 : 


time.sleep(1) # Brief pause to let USer See the result. 
print('Score: %s / %s' % (correctAnswers, numberOfQuestions)) 


PyInputPlus 具有 足够 的 灵活 性 ， 你 可 以 在 需要 用 户 使 用 键盘 输入 的 各 种 程序 中 使 用 它 ， 如 
本 章 中 的 程序 所 示 。 


8.4 小 结 


虽然 很 容易 忘记 编写 输入 验证 代码 ， 但 是 没有 它 ， 你 的 程序 几乎 会 存在 bug。 你 期 望 用 户 
输入 的 值 和 他 们 实际 输入 的 值 可 能 完全 不 同 ， 你 的 程序 必须 足够 健壮 ， 能 处 理 这 些 特殊 情况 。 
可 以 使 用 正则 表达 式 来 创建 自己 的 输入 验证 代码 ， 但 在 常见 情况 下 ， 使 用 现 有 模块 (例如 
PyInputPlus) 会 更 容易 。 你 可 以 利用 import pyinputplus as pyip 导入 该 模块 ， 以 便 
在 调用 该 模块 的 函数 时 输入 一 个 较 短 的 名 称 。 

PyInputPlus 具有 用 于 处 理 各 种 输入 的 函数 ， 包 括 处 理 字 符 串 、 数 字 、 日 期 、yesy/no、 
True/False、 上 电子 邮件 和 文件 的 函数 。 尽 管 input ( ) 函数 总 是 返回 字符 串 ， 但 是 这 些 函 数 会 
以 适当 的 数据 类 型 返回 值 .inputChoice() 函 数 允 许 你 选择 几 个 预选 项 之 一 ,而 inputMenu() 
函数 还 添加 数字 或 字母 选项 ， 以 便 快速 选择 。 

所 有 这 些 函 数 均 具有 以 下 标准 功能 :去 除 两 侧 的 空格 ， 利 用 timeout 和 1imit 关键 字 参 
数 设 置 超时 和 尝试 次 数 限制 ， 以 及 将 正则 表达 式 字 符 串 列表 传递 给 allowRegexes 或 
blockRegexes， 从 而 允许 或 排除 特定 响应 。 你 不 再 需要 编写 见长 的 while 循环 来 检查 有 效 输 
入 并 提示 用 户 。 

如 果 没 有 一 个 PyInputPlus 模块 的 函数 可 以 满足 你 的 需要 ， 但 是 你 仍然 希望 使 用 
PyInputPlus 提供 的 其 他 功能 ， 那 么 可 以 调用 ijnputCustom()， 并 向 PyInputPlus 传 入 你 
的 自 定义 验证 函数 。PyInputPlus 联机 文档 完整 列 出 了 PyInputPlus 的 函数 和 其 他 功能 ， 内 
容 远 远 超 出 本 章 所 述 。 学 会 使 用 这 个 模块 ， 你 就 不 必 自 己 编写 和 调试 太 多 的 代码 。 

既然 你 已 经 拥有 处 理 和 验证 文本 的 专业 知识 ， 那 么 就 该 学 习 如 何 读 取 和 写 入 计算 机 硬盘 驱 
动 器 上 的 文件 了 ， 这 些 知 识 将 在 下 一 章 中 介绍 。 


8.5 习题 


. PyInputPlus 是 否 随 Python 标准 库 一 起 提供 ? 

.为 什么 通常 利用 import pyinputplus as pyip 导入 PyInputPlus? 
.inputInt() 和 inputFloat() 有 什么 区 别 ? 

.如何 利用 PyInputPlus 确保 用 户 输 入 0 到 99 之 间 的 整数 ? 
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5. 什么 被 传 入 allowRegexes 和 blockRegexes 关键 字 参 数 ? 
6. 如 果 输 入 3 次 空白 ，inputStr (1imit=3) 会 做 什么 ? 
7. 如 果 输 入 了 3 次 空白 ，inputStr (limit=3,， default='hello' ) 会 做 什么 ? 


8.6 ”实践 项 目 
作为 练习 ， 编 程 完成 以 下 任务 。 
8.6.1 三 明治 机 


编写 一 个 程序 ， 向 用 户 询 问 他 们 的 三 明治 偏好 。 程 序 应 使 用 PyInputPlus 来 确保 有 效 的 
输入 。 

口 对 面包 类 型 使 用 inputMenu ( ) : wheat、white 或 sourdough。 

口 对 蛋白 质 类 型 使 用 inputMenu( ) : chicken、turkey、ham 或 tofu。 

口 用 inputYesNo() 询 问 他 们 是 否 要 cheese。 

口 如 果 和 需要 cheese, 请 使 用 ijinputMenu() 询 问 cheese 类 型 : cheddar、Swiss 或 mozzarella。 

口 用 inputYesNo() 询 问 他 们 是 否 需 要 mayo、mustard、lettuce 或 tomato。 

口 用 inputInt() 询 问 他 们 想 要 多 少 个 三 明治 。 确 保 这 个 数字 为 1 或 更 大 。 

列 出 每 个 选项 的 价格 ， 并 在 用 户 输入 选择 后 让 程序 显示 总 费用 。 


8.6.2 ”编写 上 自己 的 乘法 测验 


要 想 明 白 PyInputPlus 为 你 做 了 多 少 事 , 请 尝试 不 导入 它 ， 自 己 重新 创建 乘法 测验 项 目 。 
该 程序 向 用 户 提 出 10 个 乘法 问题 ， 范 围 从 0x0 到 9x9。 你 需要 实现 以 下 功能 。 

口 如 果 用 户 输入 正确 的 答案 ， 程 序 将 显示 “Correct!” 并 停留 1 秒 ， 然 后 转 到 下 一 个 
问题 。 

口 在 程序 进入 下 一 个 问题 之 前 ， 用 户 有 3 次 输入 正确 答案 的 机 会 。 

口 首次 显示 问题 8 秒 后 ， 该 问题 的 答案 将 被 标记 为 不 正确 ， 即 使 用 户 之 后 输入 了 正确 的 
答案 。 

将 你 的 代码 与 8.3 节 “ 项 目 : 乘法 测验 ”中 使 用 PyInputPlus 的 代码 进行 比较 。 


谱写 文件 


当 程序 运行 时 ,用 变量 保存 数据 是 一 个 好 方法 , 但 如 果 希 望 程序 结束 后 
数据 仍然 保持 不 变 , 就 需要 将 数据 保存 到 文件 中 。 你 可 以 认为 文件 的 内 容 是 
一 个 字符 串 值 ， 大 小 可 能 有 几 个 GB。 在 本 章 中 ， 你 将 学 习 如 何 使 用 Python 
在 硬盘 上 创建 、 读 取 和 保存 文件 。 


9.1 文件 与 文件 路 径 


文件 有 两 个 关键 属性 :“ 文 件 名 ”(filename， 通 常 为 一 个 单词 ) 和 “路 人 径 ”。 路 径 指 明了 文 
件 在 计算 机 上 的 位 置 。 例 如 ， 我 的 Windows 操作 系统 的 笔记 本 电脑 上 有 一 个 文件 名 为 
project.docx， 它 的 路 径 为 CNUsers\AINDocuments。 文 件 名 的 最 后 一 个 句点 之 后 的 部 分 称 为 文件 的 
“扩展 名 ”， 它 指出 了 文件 的 类 型 。 文 件 名 project.docx 是 一 个 Word 文档 ，Users、Al 和 Documents 
都 是 指 “ 文 件 夹 ”( 也 称 为 目录 )。 文 件 夹 可 以 包含 文件 和 其 他 文件 夹 。 例 如 ，project.docx 在 
Documents 文件 夹 中 ， 该 文件 夹 又 在 Al 文件 夹 中 ，Al 文件 夹 又 在 Users 文件 夹 中 。 图 9-1 所 示 为 
这 个 文件 夹 的 组 织 结构 。 
路 径 中 的 Ci\ 部 分 是 “ 根 文件 夹 ”, 它 它 包 含 了 所 有 其 他 文件 来。 闻 洁 cs 
在 Windows 操作 系统 中 ， 根 文件 夹 名 为 C:\， 也 称 为 C 盘 。 在 | ， 
macOS 和 Linux 操作 系统 中 ， 根 文件 夹 是 /。 在 本 书 中 ， 我 使 用 二 
Windows 操作 系统 的 根 文件 夹 一 Cs 如 果 你 在 macOS 或 Linux [= 了 AM 
操作 系统 上 输入 交互 式 环境 的 例子 ， 请 用 / 代 符 。 | 
附加 “ 卷 ”” 如 DVD 驱动 器 或 USB 闪存 驱动 器 ， 在 不 同 的 
操作 系统 上 显示 也 不 同 。 在 Windows 操作 系统 上 ， 它 们 表示 为 Eee 
新 的 、 用 字母 表示 的 根 驱 动 器 。 如 D: 或 E\。 在 macOS 上 , 它 了 
们 表示 为 新 的 文件 夹 ， 在 /Volumes 文件 夹 下 。 在 Linux 操作 系统 ”人 
上 ， 它 们 表示 为 新 的 文件 夹 ， 在 /mnt (“mount”) 文件 夹 下 。 同 
时 也 要 注意 ， 虽 然 文件 夹 名 称 和 文件 名 在 Windows 操作 系统 和 macOS 上 是 不 区 分 大 小 写 的 ， 
但 在 Linux 操作 系统 上 是 区 分 大 小 写 的 。 


” 过 Documents 
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注意 : 由 于 你 的 操作 系统 上 的 文件 和 文件 夹 可 能 与 我 的 不 同 , 因此 你 将 无 法 完全 套用 本 章 中 的 每 个 示例 。 
不 过 ， 请 尝试 使 用 计算 机 上 存在 的 文件 夹 进行 后 续 操 作 。 


9.1.1 Windows 操作 系统 上 的 倒 和 斜 杠 以 及 macOS 和 Linux 操作 系统 上 的 正 斜 杠 


在 Windows 操作 系统 上 ， 路 径 书 写 使 用 倒 斜 杠 作 为 文件 夹 之 间 的 分 隔 符 。 但 在 macOS 和 
Linux 操作 系统 上 ， 使 用 正 斜 杠 作 为 它们 的 路 径 分 隔 符 。 如 果 想 要 程序 运行 在 所 有 操作 系统 上 ， 
在 编写 Python 脚本 时 ， 就 必须 处 理 这 两 种 情况 。 

好 在 用 pathlib 模块 的 Path( ) 函数 来 做 这 件 事 很 简单 。 如 果 将 单个 文件 和 路 径 上 的 文件 
夹 名 称 的 字符 串 传 递 给 它 ，Path ( ) 就 会 返回 一 个 文件 路 径 的 字符 串 ， 包 含 正 确 的 路 径 分 隔 符 。 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> from pathlib import Path 
>>> Path('spam','bacon’','eggs') 


WindowsPath('spam/bacon/eggs') 

>>> str(Path('spam’,'bacon','eggs')) 

'spam\\bacon\\eggs' 

请 注意 ， 导 入 path1lib 的 惯例 是 运行 from pathlib import Path， 因 为 不 这 样 做 ， 我 
们 就 必须 在 代码 中 出 现 Path 的 所 有 地 方 都 输入 pathlib.Path。 这 种 额外 的 输入 不 仅 麻烦 ， 
而 且 也 很 多 余 。 

我 在 Windows 操作 系统 上 运行 这 些 交 互 式 环境 的 例子 , Path('spam', 'bacon','eggs') 
为 连接 的 路 径 返 回 一 个 WindowsPath， 表 示 为 WindowsPath('spam/ bacon/eggs')。 尺 
管 Windows 操作 系统 使 用 了 倒 斜 本 ， 但 WindowsPath 的 表示 方法 在 交互 式 环境 中 用 正 斜 杠 
显示 和 它们， 因为 开源 软件 开发 者 总 是 比较 喜欢 使 用 Linux 操作 系统 。 

如 果 要 获取 这 个 路 径 的 简单 文本 字符 串 ， 可 以 将 其 传递 给 str() 函 数 ， 该 函数 在 我 们 的 
示例 中 返回 'spam\\bacon\\eggs'。( 请 注意 ， 由 于 每 个 倒 斜 杠 都 需要 用 另 一 个 倒 斜 杠 字符 
进行 转 义 ， 因 此 倒 斜 杠 会 加 倍 。) 如 果 在 Linux 操作 系统 上 调用 过 此 函数 ， 那 么 Path( ) 将 返 
回 一 个 PosixPath 对 象 , 该 对 象 在 传递 给 str ( ) 时 , 会 返回 'spam/bacon/eggs'。(POSIX 
是 针对 Linux 操作 系统 这 样 的 类 UNIX 操作 系统 的 一 组 标准 。) 

这 些 Path 对 象 ( 实 际 上 是 WindowsPath 或 PosixPath 对 象 , 具体 取决 于 你 的 操作 系统 ) 
将 传 入 本 章 介绍 的 几 个 与 文件 相关 的 函数 。 例 如 ， 以 下 代码 将 一 些 名 称 从 文件 名 列表 连接 到 文 
件 夹 名 称 的 末尾 : 

>>> from pathlib import Path 

>>> myFiles = ['accounts.txt', 'details.csv', ‘invite.docx'] 

>>> for filename in myFiles: 

print(Path(r'C:\Users\Al', filename)) 
C:\Users\Al\accounts.txt 


C:\Users\Al\details.csy 
C:\Users\Al\invite.docx 
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在 Windows 操作 系统 上 ， 倒 斜 杠 用 于 分 隔 目 录 ， 因 此 你 不 能 在 文件 名 中 使 用 它 。 但 是 ， 你 
可 以 在 macOS 和 Linux 操作 系统 上 的 文件 名 中 使 用 倒 斜 杠 。 因 此 , 尽管 Path(r'spam\eggs') 
在 Windows 操作 系统 上 指 的 是 两 个 单独 的 文件 夹 (或 文件 夹 spam 中 的 文件 eggs), 但 在 macOS 
和 Linux 操作 系统 上 ， 同 样 的 命令 是 指 一 个 名 为 spam\eggs 的 文件 夹 〈 或 文件 )。 因 此 ， 在 你 的 
Python 代码 中 始终 使 用 正 斜 杠 通常 是 个 好 主意 (本 章 的 其 余部 分 将 继续 使 用 正 斜 枉 )。path1lib 
模块 将 确保 它 始 终 可 在 所 有 操作 系统 上 运行 。 

请 注意 ，Python 3.4 引入 了 pathlib 来 代替 旧 的 os.path () 函 数 。Python 标准 库 模块 从 
Python 3.6 开始 支持 它 , 但 是 如 果 你 使 用 的 是 较 老 的 Python 2 版 本 ,建议 你 使 用 pathlib2, 它 
在 Python 2.7 上 提供 了 pathlib 的 功能 。 附 录 A 包含 了 利用 pip 安装 pathlib2 的 说 明 。 每 
当 我 用 pathlib 替换 了 较 旧 的 os .path() 函 数 时 ， 都 会 做 一 个 简短 的 说 明 。 你 可 以 在 Python 
的 官方 网 站 中 查找 较 早 的 函数 。 


9.1.2 ”使 用 /运算 符 连 接 路 径 


通常 ， 我 们 用 + 运算 符 将 两 个 整数 或 浮 点 数 相 加 ， 例 如 在 表达 式 2+2 中 ， 其 结果 为 整数 
值 4。 但 是 我 们 也 可 以 用 + 运算 符 将 两 个 字符 串 值 连接 起 来 , 例如 表达 式 'Hello'+'World'， 
其 计算 结果 为 字符 串 值 'HelloWor1d' 。 同 样 ， 我 们 通常 用 作 除 法 的 /运算 符 也 可 以 组 合 
Path 对 象 和 字符 串 。 当 你 使 用 Path() 函 数 创建 路 径 对 象 后 ， 这 一 点 对 修改 路 径 对 和 象 很 有 
帮助 。 

例如 ， 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> from pathlib import Path 

>>> Path('spam') /'bacon’' / 'eggs' . 

WindowsPath('spam/bacon/eggs') 

>>> Path('spam') / Path('bacon/eggs') 

WindowsPath('spam/bacon/eggs') 

>>> Path('spam') / Path('bacon', 'eggs') 

WindowsPath('spam/bacon/eggs') 

将 /运算 符 与 Path 对 象 一 起 使 用 ， 连 接 路 径 就 像 连接 字符 串 一 样 容 易 。 与 使 用 字符 串 连 接 
或 join() 方 法 相 比 ， 这 个 方法 也 更 安全 ， 如 以 下 示例 : 

>>> homeFolder = r'C:\Users\Al' 

>>> subFolder = “Spam' 

>>> homeFolder + '\\' + subFolder 

'C:\\Users\\Al\\spam’ 


>>> '\\'.join([homeFolder, subFolder]) 
'C:\\Users\\Ai\\spam’ 


使 用 这 段 代 码 的 脚本 并 不 安全 ， 因 为 其 中 的 倒 斜 杠 仅 适用 于 Windows 操作 系统 。 你 可 以 
添加 一 条 if 语句 来 检查 sys .platform〈 它 包含 一 个 字符 串 ， 描 述 了 计算 机 的 操作 系统 )， 
从 而 决定 要 使 用 哪 种 斜 杠 ， 但 是 在 所 有 需要 的 地 方 应 用 这 段 目 定 义 代码 的 结果 可 能 会 不 一 致 ， 
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而 且 容 易 出 错 。 
无 论 你 的 代码 运行 在 什么 操作 系统 上 ，pathlib 模块 都 可 以 重新 使 用 /数学 运算 符 正确 地 连接 
路 径 ， 从 而 解决 这 些 问题 。 下 面 的 示例 利用 这 种 策略 来 连接 同一 个 路 径 : 


>>> homeFolder = Path('C:/Users/Al') 
>>> subFolder = Path('spam') 

>>> homeFolder / subFolder 
WindowsPath('C:/Users/AL1/Spam ') 

>>> str(homeFolder / subFolder) 
'C:\\Users\\Al\\spam’ 


使 用 /运算 符 连 接 路 径 时 ， 唯 一 需要 记 住 的 是 ， 前 两 个 值 中 有 一 个 必须 是 Path 对 象 。 
如 果 壬 试 在 交互 式 环境 中 输入 以 下 内 容 ，Python 会 报错 : 


>>> 'spam' / 'bacon' / 'eggs' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for /: 'str' and 'Str' 


Python 从 左 到 右 求 值 /运算 符 ， 并 求 值 为 一 个 Path 对 象 ， 因 此 最 左边 第 一 个 或 第 二 个 值 必 
须 是 Path 对 象 ， 整 个 表达 式 才能 求 值 为 Path 对 象 。 下 面 是 /运算 符 和 Path 对 象 求 值 为 最 终 
的 Path 对 象 的 方式 。 


Path( "spam)/ "bacon” /eggS 人 ham’ 
WindowsPath('spam/bacon' )/'eggs /7 ham' 
WindowsPath('spam/bacon/eggs') /'ham' 


WindowsPath('spam/bacon/eggs/ham') 
如 果 看 到 前 面 显 示 的 TypeError: unsupported operand type(s) for /: 'str' and 
'str ' 错误 信 息 ， 就 需要 在 表达 式 的 左 侧 放 一 个 Path 对 象 。 
/运算 符 蔡 换 了 较 旧 的 os.path.join() 函 数 ， 可 以 从 Python 的 官方 网 站 中 了 解 更 多 
信息 。 


9.1.3 ”当前 工作 目录 
每 个 运行 在 计算 机 上 的 程序 ， 都 有 一 个 “当前 工作 目录 ”或 cwd。 所 有 没有 从 根 文件 夹 开 
始 的 文件 名 或 路 径 ， 都 假定 在 当前 工作 目录 下 。 
注意 : 虽然 文件 夹 是 目录 的 新 名 称 ， 但 请 注意 ， 当 前 工作 目录 (或 当前 目录 ) 是 标准 术语 ， 没 有 “当前 
工作 文件 夹 ” 这 种 说 法 。 
利用 Path .cwd() 函 数 ， 可 以 取得 当前 工作 路 径 的 字符 串 ， 并 可 以 利用 os .chdir() 改 变 
它 。 在 交互 式 环境 中 输入 以 下 代码 : 
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>>> from pathlib import Path 

>>> import os 

>>> Path.cwd() 
WindowsPath('C:/Users/Al/AppData/Local/Programs/Python/Python37")" 
>>> os.chdir('C:\\Windows\\System32°') 

>>> Path.cwd() 

WindowsPath('C:/Windows/System32 ' ) 


这 里 ， 当 前 工作 目录 设置 为 C\UsersAIAppData\Local\Programs\Python\Python37， 因 此 文件 名 
project.docx 指向 C:\Users\Al\AppData\Local\Programs\Python\Python37\ project.docx。 如 果 我 们 将 
当前 工作 目录 改 为 C:\Windows\System32， 文 件 就 被 解释 为 C:\Windows\System32\project.docx。 

如 果 要 更 改 的 当前 工作 目录 不 存在 ，Python 就 会 显示 一 个 错误 : 


>>> os.chdir('C:/ThisFolderDoesNotExist') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
FileNotFoundError: [WinError 2] The system cannot find the file specified: 
'C:/ThisFolderDoesNotExist' 


没有 可 以 用 于 更 改 工作 目录 的 pathlib 函数 , 因为 在 程序 运行 时 更 改 当 前 工作 目录 通常 会 
导致 微妙 的 错误 。 
os .getcwd ( ) 函数 是 取得 当前 工作 目录 字符 的 较 老 方法 。 


9.1.4 主 目录 


所 有 用 户 在 计算 机 上 都 有 一 个 用 于 存放 自己 文件 的 文件 夹 , 该 文件 夹 称 为 “ 主 目 录 ” 或 “ 主 
文件 夹 "”。 可 以 通过 调用 Path .home( ) 获 得 主 文件 夹 的 Path 对 象 : 


>>> Path.home() 
WindowsPath('C:/Users/Al') 


主 目录 位 于 一 个 特定 的 位 置 ， 具 体 取 决 于 你 的 操作 系统 。 

口 在 Windows 操作 系统 上 ， 主 目录 位 于 C:\Users 下 。 

口 在 macOS 上 ， 主 目录 位 于 /Users 下 。 

口 在 Linux 操作 系统 上 ， 主 目录 通常 位 于 /home 下 。 

你 的 脚本 绝 大 多 数 有 在 主 目录 下 读 写 文件 的 权限 , 因此 它 是 放置 Python 程序 可 以 使 用 的 文 
件 的 理想 场所 。 


9.1.5 绝对 路 径 与 相对 路 径 


有 以 下 两 种 方法 可 指定 一 个 文件 路 径 。 

口 “绝对 路 径 "”， 总 是 从 根 文 件 夹 开始 。 

口 “相对 路 径 ”， 相 对 于 程序 的 当前 工作 目录 。 

还 有 “点 ”(-.) 和 “点点 ”(..) 文件 夹 。 它 们 不 是 真正 的 文件 夹 ， 而 是 可 以 在 路 径 中 使 用 
的 特殊 名 称 。 单 个 的 句点 (“点 ”) 用 作文 件 夹 名 称 时 ， 是 “这 个 目录 ”的 缩写 。 两 个 句点 (“点 
点 ") 的 意思 是 父 文件 夹 。 
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9-2 所 示 为 一 些 文件 夹 和 文件 的 例子 。 如 果 当 前 工作 目录 设置 为 C:\bacon， 那 么 这 些 文 
件 夹 和 文件 的 相对 目录 就 设置 为 图 9-2 所 示 的 样子 。 


相对 路 径 绝对 路 径 
Fy <\ 了 C:\ 
et 一 一 人 地 bacon | C:\bocon 
目录 a 
信 评 fizz .\fizz C:\bacon\fizz 
上 5 spam.txt .\fizz\spom.txt C:\bocon\fizz\spam.txt 
y spam.txt .\spam.fxf C:\bocon\spam.txt 
@ eggs ..\eggs C:\eggs 
尖 ， spam. txt ..\eggs\spam.txt C:\eggs\spam.txt 
spam.txt ..\spom.txt C:\spam.txt 


图 9-2 在 工作 目录 C:\bacon 中 的 文件 夹 和 文件 的 相对 路 径 
相对 路 径 开始 处 的 \ 是 可 选 的 。 例 如 ，.\spam.txt 和 spam.txt 指 的 是 同一 个 文件 。 a 


9.1.6 用 os.makedirs() 创 建新 文件 夹 
程序 可 以 用 os.makedirs() 函 数 创建 新 文件 夹 〈 目 录 )。 在 交互 式 环境 中 输入 以 下 代码 ; 


>>> import os 
>>> os.makedirs('C:\\delicious\\walnut\\waffles') 


这 不 仅 将 创建 C:\delicious 文件 夹 , 也 会 在 C:\delicious 下 创建 walnut 文件 夹 , 并 在 C:\delicious\ 
walnut 中 创建 waffles 文件 夹 。 也 就 是 说 ，os .makedirs() 将 创建 所 有 必要 的 中 间 文 件 夹 ， 目 
的 是 确保 完整 路 径 名 存在 。 图 9-3 所 示 为 这 个 文件 夹 的 层次 结构 。 


fF cs 
| psg delicious 
| gg woalnut 
| a waffles 
图 9-3 os.makedirs('C:\\delicious\\walnut\\waffles') 的 结果 


要 通过 Path 对 象 创建 目录 ， 请 调用 mkdir() 方 法 。 例 如 ， 以 下 代码 将 在 我 的 计算 机 的 主 
文件 夹 下 创建 一 个 spam 文件 夹 : 


>>> from pathlib import Path 
>>> Path(r'C:\Users\Al\spam') .mkdir() 


164 第 9 章 读 写 文件 


注意 ，mkdir() 一 次 只 能 创建 一 个 目录 。 它 不 会 像 os.makedirs () 一 样 同时 创建 多 个 子 
目录 。 


9.1.7 ”处 理 绝对 路 径 和 相对 路 径 


path1lib 模块 提供 了 一 些 方法 ， 用 于 检查 给 定 路 径 是 否 为 绝对 路 径 ， 以 及 返回 相对 路 径 的 
绝对 路 径 。 

调用 一 个 Path 对 象 的 is _absolute() 方 法 ， 如 果 它 代表 绝对 路 径 ， 则 返回 True; 如 果 
代表 相对 路 径 ， 则 返回 False。 例 如 ， 使 用 你 自己 的 文件 和 文件 夹 〈 而 不 是 这 里 列 出 的 具体 文 
件 和 文件 夹 )， 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> Path.cwd() 
WindowsPath('C:/Users/Al/AppData/Local/Programs/Python/Python37') 
>>> Path.cwd().is absolute{) 

True 

>>> Path('spam/bacon/eggs').is absolute() 

False 


要 从 相对 路 径 获取 绝对 路 径 ， 可 以 将 Path .cwd( ) / 放 在 相对 Path 对 象 的 前 面 。 毕 竟 ， 
当 我 们 说 “相对 路 径 ”时 ， 几 乎 总 是 指 相对 于 当前 工作 目录 的 路 径 。 在 交互 式 环境 中 输入 以 
下 内 容 : 


>>> Path('my/relative/path') 

WindowsPath('my/relative/path') 

>>> Path.cwd() / Path('my/relative/path') 
WindowsPath('C:/Users/Al/AppData/Local/Programs/Python/Python37/my/relative/ path ' ) 


如 果 你 的 相对 路 径 是 相对 于 当前 工作 目录 之 外 的 其 他 路 径 ， 那 么 只 需 将 Path .cwd( ) 蔡 换 
为 那个 其 他 路 径 就 可 以 了 。 以 下 示例 使 用 主 目录 而 不 是 当前 工作 目录 来 获取 绝对 路 径 : 


>>> Path('my/relative/path ' ) 

WindowsPath( 'my/relative/path ' ) 

>>> Path .home() / Path('my/relative/path ' ) 
WindowsPath('C:/Users/Al/my/relative/path') 


os .path 模块 提供 了 一 些 有 用 的 函数 ， 它 们 与 绝对 路 径 和 相对 路 径 有 关 。 

口 调用 os.path.abspath(path) 将 返回 参数 的 绝对 路 径 的 字符 串 。 这 是 将 相对 路 径 转 
换 为 绝对 路 径 的 简便 方法 。 

口 调用 os.path.isabs(path)， 如 果 参 数 是 一 个 绝对 路 径 ， 融 返回 True; 如 果 参 数 是 
一 个 相对 路 径 ， 就 返回 False。 

口 调用 os.path.relpath(path,，start) 将 返回 从 开始 路 径 到 path 的 相对 路 径 的 字符 
串 。 如 果 没 有 提供 开始 路 径 ， 就 将 当前 工作 目录 作为 开始 路 径 。 

在 交互 式 环境 中 尝试 使 用 以 下 消 数 : 

>>> os.path.abspath('.') 


'C:\\Users\\Al\\AppData\\Local\\Programs\\Python\\Python37' 

>>> os.path.abspath('.\\Scripts') 
'C:\\Users\\Al\\AppData\\Local\\Programs\\Python\\Python37\\Scripts' 
>>> os.path.isabs('.') 
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False 
>>> 0s.path.isabs(os.path.abspath('.')) 
True 


因为 在 调用 os .path.abspath() 时 ,当前 目录 是 C:\Users\Al\AppData\Local\ Programs\Python\ 
Python37， 所 以 “点 ”文件 夹 指 的 是 绝对 路 径 'C:NUsers\AINAppDataN Local\Programs\\Python\\ 
Python37 。 

在 交互 式 环境 中 ， 输 入 以 下 代码 对 os .path.relpath() 进 行 调用 : 


>>> os.path.relpath('C:\\Windows', 'C:\\') 

'Windows ' 

>>> os.path.relpath('C:\\Windows', 'C:\\spam\\eggs') 
'..\\..\\Windows' 


如 果 相 对 路 径 与 该 路 径 位 于 同一 父 文件 夹 中 ， 但 位 于 其 他 路 径 的 子 文件 夹 中 ， 例 如 
'C:\\Windows' 和 'C:\\spam\\eggs'， 就 可 以 用 “点 点 ”表示 法 返回 到 父 文件 夹 。 


9.1.8 ”取得 文件 路 径 的 各 部 分 


给 定 一 个 Path 对 象 ， 可 以 利用 Path 对 象 的 几 个 属性 ， 将 文件 路 径 的 不 同 部 分 提取 为 字 
符 串 。 这 对 于 在 现 有 文件 路 径 的 基础 上 构造 新 文件 路 径 很 有 用 。 这 些 属性 如 图 9-4 所 示 。 


点 
| 。 父 文件 夹 文件 名 


C:\Users\Al\spam.txt 
sd 

主干 名 后 组 名 
驱动 FP 
/home/al/spam.txt 


Is 


销 点 父 文件 夹 ”文件 名 
图 9-4 Windows 操作 系统 (上 部 ) 和 macOS /Linux 操作 系统 (下 部 ) 文件 路 径 的 部 分 


文件 路 径 的 各 个 部 分 包括 以 下 内 容 。 

口 “ 锚 点 ”(anchor)， 它 是 文件 系统 的 根 文件 夹 。 

口 在 Windows 操作 系统 上 ,“ 驱 动 器 ”(drive) 是 单个 字母 ， 通 常 表示 物理 硬盘 驱动 器 或 
其 他 存储 设备 。 

口 “ 父 文件 夹 ”(parent)， 即 包含 该 文件 的 文件 夹 。 

口 “ 文 件 名 ”(name)， 由 “主干 名 ”(stem) (或 “基本 名 称 ”) 和 “后 级 名 ”(suffix) (或 
“扩展 名 ”) 构成 。 

请 注意 ，Windows 操作 系统 中 的 Path 对 象 具有 drive 属性 , 而 macOS 和 Linux 操作 系统 

中 的 Path 对 象 则 没有 。drive 属性 不 包含 第 一 个 倒 斜 杠 。 
要 从 文件 路 径 中 提取 每 个 属性 ， 请 在 交互 式 环境 中 输入 以 下 内 容 : 
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>>> p = Path('C:/Users/Al/spam.txt') 
>>> p.anchor 

"GN 

>>> p.parent # This is a Path object, not a string. 
WindowsPath('C:/Users/Al') 

>>> p.name 

‘spam.txt" 

>>> p.stem 

'Sspam’ 

>>> p.suffix 

CE 

>>> p.drive 

二 . 


这 些 属性 求 值 为 简单 的 字符 串 值 ， 但 parent 除外 ， 它 求 值 为 男 一 个 Path 对 象 。 
parents 属性 (与 parent 属性 不 同 ) 求 值 为 一 组 Path 对 象 ， 代 表 祖 先 文件 夹 ， 具 有 整 
数 索 引 : 


>>> Path.cwd() 
WindowsPath('C:/Users/Al/AppData/Local/Programs/Python/Python37') 
>>> Path.cwd().parents[0] 
WindowsPath('C:/Users/Al/AppData/Local/Programs/Python') 
>>> Path.cwd().parents[1] 
WindowsPath('C:/Users/Al/AppData/Local/Programs') 

>>> Path.cwd().parents[2] 
WindowsPath('C:/Users/Al/AppData/Local') 

>>> Path.cwd().parents[3] 
WindowsPath('C:/Users/Al/AppData') 

>>> Path.cwd().parents[4] 

WindowsPath('C:/Users/Al') 

>>> Path.cwd().parents[5] 

WindowsPath('C:/Users') 

>>> Path.cwd().parents[6] 

WindowsPath('C:/"') 


较 老 的 os .path 模块 也 有 类 似 的 函数 ， 用 于 取得 写 在 一 个 字符 串 值 中 的 路 径 的 不 同 部 分 。 
调用 os .path.dirname(path) 将 返回 一 个 字符 串 ， 它 包含 path 参数 中 最 后 一 个 和 斜 杜 之 前 的 
所 有 内 容 。 调 用 os.path.basename(path) 将 返回 一 个 字符 串 ， 它 包含 path 参数 中 最 后 一 
个 斜 杠 之 后 的 所 有 内 容 。 一 个 路 径 的 目录 名 称 和 基本 名 称 如 图 9-5 所 示 。 


C:\Windows\System32\calc.exe 
BT SE 


目录 名 称 基本 名 称 


图 9-5 基本 名 称 跟 在 路 径 中 最 后 一 个 斜 杠 后 ， 它 和 文件 名 一 样 ; 
目录 名 称 是 最 后 一 个 斜 杠 之 前 的 所 有 内 容 


例如 ， 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> CalcFilePath = 'C:\\Windows\\System32\\calc.exe’ 
>>> os.path.basename(calcFilePath) 

"Calc .exe' 

>>> os.path.dirname(calcFilePath) 
'C:\\Windows\\System32' 
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如 果 同 时 需要 一 个 路 径 的 目录 名 称 和 基本 名 称 ， 就 可 以 调用 os .path. split()， 获 得 这 
两 个 字符 串 的 元 组 ， 像 这 样 : 
>>> calcFilePath = 'C:\\Windows\\System32\\calc.exe' 


>>> os.path.split(calcFilePath) 
('C:\\Windows\\System32', 'calc.exe') 


请 注意 ， 可 以 调用 os .path.dirname() 和 os.path.basename()， 将 它们 的 返回 值 放 


在 一 个 元 组 中 ， 从 而 得 到 同样 的 元 组 : 


>>> (os.path.dirname(calcFilePath), os.path.basename (calcFilePath)) 
('C:\\Windows\\System32', 'calc.exe') 


但 如 果 需 要 两 个 值 ， 调 用 0s .path.split() 是 很 好 的 快捷 方式 。 

同时 也 请 注意 ，os .path.sp1lit() 不 会 接收 一 个 文件 路 径 并 返回 每 个 文件 夹 的 字符 串 的 
列表 。 如 果 需 要 这 样 ， 请 使 用 split () 字 符 串 方法 ， 并 根据 os.sep 中 的 字符 串 进行 分 隔 。( 注 
意 sep 是 在 os 中 , 不 在 os.path 中 。) 针对 运行 程序 的 计算 机 ，os .sep 变量 被 置 为 正确 的 目 
录 分 隔 斜 本 ， 在 Windows 操作 系统 上 是 '\\'， 在 macOS 和 Linux 操作 系统 上 是 '/'。 根 据 它 
进行 分 隔 ， 将 返回 一 系列 单个 文件 夹 的 列表 。 

例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> calcFilePpath.split(0s.sep) 


['C:', 'Windows', 'System32', 'calc.exe'] 
这 将 返回 路 径 字 符 串 的 所 有 部 分 。 


在 macOS 和 Linux 操作 系统 上 上， 返回 的 列表 头 上 有 一 个 空 字符 串 ， 像 这 样 ， 


>>> '/uyusr/bin' .split(os.sep) 
be 


split() 字 符 串 方法 将 返回 一 个 列表 ， 包 含 该 路 径 的 所 有 部 分 。 
9.1.9 ”查看 文件 大 小 和 文件 夹 内 容 


一 旦 有 办 法 处 理 文件 路 径 ， 就 可 以 开始 搜集 特定 文件 和 文件 夹 的 信息 了 。os .path 模块 提 
供 了 一 些 函 数 ， 用 于 查看 文件 的 字 节 数 以 及 给 定 文件 夹 中 的 文件 和 子 文件 夹 。 
口 调用 os.path.getsize(path) 将 返回 path 参数 中 文件 的 字 节 数 。 
口 调用 os .listdir(path) 将 返回 文件 名 字符 串 的 列表 ， 包 含 path 参数 中 的 每 个 文件 
(请 注意 ， 这 个 函数 在 os 模块 中 ， 而 不 是 在 0S .path 中 )。 
下 面 是 我 在 交互 式 环境 中 使 用 这 些 函 数 的 结果 : 


>>> os.path.getsize('C:\\Windows\\System32\\calc.exe') 

27648 

>>> 0S.listdir('c:\\Windows\\System32 ' ) 

['0409' ，“12520437.cpx' ，“'12520850.cpx'， '5U877 .ax' ， “aaclient.d11'， 
--Snip-- 

'xwtpdui.dll', 'xwtpw32.d11' ， "zh-CN' ，'zh-HK'， “zh-TW'， 'zipfldr.dl11'] 


可 以 看 到 ， 我 的 计算 机 上 的 calc.exe 程序 是 27648 字 节 。 在 我 的 C:\Windows\ system32 


和 
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下 有 许多 文件 ,如 果 想 知道 这 个 目录 下 所 有 文件 的 总 字 节 数 ,就 同时 使 用 0s .path .getsize() 
和 os.1Listdir(): 


>>> totalSize = 0 
>>> for filename in os.listdir('C:\\Windows\\System32"): 


totalSize = totalSize + os.path.getsize(os.path.join('C:\\Windows\\System32', filename)) 
>>> print(totalSize) 
2559970473 


当 循 环 遍历 C:\Windows\System32 文件 夹 中 的 每 个 文件 时 ，totalSize 变量 依次 增加 每 个 
文件 的 字 节 数 。 请 注意 ,我 在 调用 0s .path .getsize() 时 ,使 用 了 0s.path.join() 来 连接 
文件 夹 名 称 和 当前 的 文件 名 。os .path .getsize() 返 回 的 整数 添加 到 totalSize 中 。 在 循环 
遍历 所 有 文件 后 ， 输 出 totalSize， 看 看 C:\Windows\System32 文件 夹 的 总 字 节 数 。 


9.1.10 ”使 用 通配符 模式 修改 文件 列表 


如 果 要 处 理 特定 文件 ,那么 使 用 glob () 方 法 比 Listdir() 更 简单 .Path 对 象 具 有 glob() 
方法 ， 用 于 根据 “通配符 (glob) 模式 ” 列 出 文件 夹 的 内 容 。 通 配 符 模 式 类 似 于 命令 行 命令 中 
经 常 使 用 的 正则 表达 式 的 简化 形式 。glob ( ) 方 法 返回 一 个 生成 器 对 象 〈 这 不 在 本 书 的 讨论 范围 
内 )， 你 需要 将 它 传递 给 1ist () ， 以 便 在 交互 式 环境 中 轻松 查看 : 


>>> p = Path('"Cc:/Users/AL/Desktop ') 

>>> p.glob('*’) 

<generator object Path .glob at Ox000002A6E389DEDO> 

>>> list(p.glob('*')) # Make a list from the generator. 


[WindowsPath('C:/Users/Al/Desktop/1.png'),WindowsPath('C:/Users/Al/ Desktop/22-ap.pdf'), 
WindowsPath('C:/Users/Al/Desktop/cat.jpg'), 
--SNip-- 
WindowsPath('C:/Users/Al/Desktop/zzz.txt')] 


星 号 (*) 代表 “多 个 任意 字符 ” 因此 p.glob('*') 返 回 一 个 生成 器 对 象 ， 代 表 存 储 在 p 
中 的 路 径 中 的 所 有 文件 。 
与 正则 表达 式 一 样 ， 你 可 以 创建 复杂 的 表达 式 : 


>>> list(p.glob('*.txt')# Lists all text files. 

[WindowsPath('C:/Users/Al/Desktop/foo.txt'), 
--Snzp-- 

WindowsPath('C:/Users/Al/Desktop/zzz.txt')] 


通配符 模式 '* .txt' 返 回 以 任何 字符 组 合 开头 、 以 字符 串 ' .txt'〈 即 文本 文件 扩展 名 ) 结 
尾 的 文件 。 

与 星 号 不 同 ， 问 号 〈?) 代表 任意 单个 字符 : 

>>> list(p.glob('project?.docx') 

[WindowsPath('C:/Users/Al/Desktop/project1.docx'), WindowsPath('C:/Users/Al/ 

Desktop/project2.docx' ), 


--SNip-- 
WindowsPath('C:/Users/Al/Desktop/project9.docx' )] 


通配符 表达 式 'project?.docx' 将 返回 'project1.docx' 或 'project5. docx'， 但 不 
会 返回 'project10.docx'， 因 为 ?只 匹配 一 个 字符 ， 所 以 不 匹配 两 个 字符 的 字符 串 '10'。 


9.1 文件 与 文件 路 径 169 


最 后 ， 你 还 可 以 结合 使 用 星 号 和 问号 来 创建 更 复杂 的 通配符 表达 式 ， 如 下 所 示 : 


>>> list(p.glob('*.?x?') 

[WindowsPath('C:/Users/Al/Desktop/calc.exe'), WindowsPath('C:/Users/Al/ 
Desktop/foo.txt'), 

--Snip-- 

WindowsPath('C:/Users/Al/Desktop/zzz.txt')] 


通配符 表达 式 '*.?3x?' 将 返回 具有 任意 名 称 和 任意 3 个 字符 的 扩展 名 的 文件 ， 但 扩展 名 的 
中 间 字 符 必须 为 'x'。 

通过 选择 具有 特定 属性 的 文件 ，glob( ) 方 法 让 你 能 够 轻松 地 在 目录 中 指定 一 些 文件 ， 并 对 
其 执行 某 些 操作 。 可 以 用 for 循环 遍历 glob() 返 回 的 生成 器 对 象 : 


>>> p = Path('C:/Users/Al/Desktop') 

>>> for textFilePathObj in p.glob('*.txt'): 
print(textFilePathObj) # Prints the Path object as a string. 
# Do something with the text file. 


C:\Users\Al\Desktop\foo.txt 
C:\Users\Al\Desktop\spam.txt 
C:\Users\Al\Desktop\zzz.txt 


如 果 要 对 目录 中 的 每 个 文件 执行 某 些 操作 , 则 可 以 使 用 os.1istdir(p) 或 p.glob('*')。 
9.1.11 检查 路 径 的 有 效 性 


如 果 你 提供 的 路 径 不 存在 ， 许 多 Python 函数 就 会 月 溃 并 报错 。 好 在 Path 对 象 有 一 些 方法 
来 检查 给 定 的 路 径 是 否 存在 ， 以 及 它 是 文件 还 是 文件 夹 。 假 设 变量 p 包含 Path 对 象 ， 那 么 可 
以 预期 会 出 现 以 下 情况 。 

口 如 果 该 路 径 存 在 ， 调 用 p.exists() 将 返回 True; 否则 返回 False。 

口 如 果 该 路 径 存 在 , 并 且 是 一 个 文件 , 调用 p.is_file() 将 返回 True; 否则 返回 False。 

口 如 果 该 路 径 存 在 , 并 且 是 一 个 文件 夹 ,调用 p.is _ dir() 将 返回 True; 否则 返回 False。 

在 我 的 计算 机 上 ， 下 面 是 我 在 交互 式 环境 中 使 用 这 些 函 数 的 结果 : 


>>> winDir = Path('C:/Windows') 
>>> notExistsDir = Path('C:/This/Folder/Does/Not/Exist') 
>>> CalcFile = Path('C:/Windows 
/System32/calc.exe ') 

>>> WinDir .exists() 

True 

>>> winDir.is _ dir() 

True 

>>> notExistsDir.exists() 

False 

>>> calcFile.is file() 

True 

>>> calcFile.is dir() 

False 


利用 exists() 方 法 来 检查 ,可 以 确定 DVD 或 内 存盘 当前 是 否 连 在 计算 机 上 。 例如 ， 如 果 
在 Windows 操作 系统 的 计算 机 上 ， 我 想 用 名 称 D:\ 检 查 一 个 内 存盘 ， 可 以 这 样 做 : 


>>> dDrive = Path('D:/') 
>>> dDrive.exists!() 
False 
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结果 为 False， 表 示 未 插入 闪存 盘 。 

较 老 的 os .path 模块 可 以 使 用 os.path.exists(path)、os.path.isfile (path) 和 
os.path.isdir(path) 函 数 来 完成 相同 的 任务 ， 它 们 的 行为 与 Path 对 象 的 函数 类 似 。 从 
Python 3.6 开始 ， 这 些 函数 可 以 接收 Path 对 象 ， 也 可 以 接收 文件 路 径 的 字符 串 。 


9.2 文件 读 写 过 程 


在 熟悉 了 处 理 文件 夹 和 相对 路 径 的 方法 后 ， 你 就 可 以 指定 文件 的 位 置 ， 从 而 进行 读 写 。 接 
下 来 几 小 节 介 绍 的 函数 适用 于 纯 文本 文件 。“ 纯 文本 文件 ”只 包含 基本 文本 字符 ， 不 包含 字体 、 
大 小 和 颜色 信息 。 带 有 .txt 扩展 名 的 文本 文件 ， 以 及 带 有 .py 扩展 名 的 Python 脚本 文件 ， 都 
是 纯 文 本 文件 的 例子 。 它 们 可 以 被 Windows 操作 系统 的 Notepad 或 mac0S 的 TextEdit 应 用 
打开 。 你 的 程序 可 以 轻易 地 读 取 纯 文 本 文件 的 内 容 ， 将 它们 作为 普通 的 字符 串 值 。 

“二 进 制 文 件 ” 包含 所 有 其 他 文件 类 型 ， 如 字 处 理 文档 、PDF、 图 像 、 电 子 表 格 和 可 执行 程 
序 。 如 果 用 Notepad 或 TextEdit 打开 一 个 二 进 制 文件 ， 它 看 起 来 就 像 乱码 ， 如 图 9-6 所 示 。 
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图 9-6 在 Notepad 中 打开 Windows 操作 系统 的 calc .exe 程序 


因为 每 种 不 同类 型 的 二 进 制 文件 都 必须 用 它 自己 的 方式 来 处 理 ， 所 以 本 书 不 会 探讨 直接 读 
写 二 进 制 文 件 。 好 在 Python 的 许多 模块 让 二 进 制 文件 的 处 理 变 得 更 容易 。 在 本 章 稍 后 ， 你 将 探 
索 其 中 一 个 模块 : shelve。pathlib 模块 的 read text() 方 法 返回 文本 文件 全 部 内 容 的 字符 
串 。 它 的 write _text() 方 法 利用 传递 给 它 的 字符 串 创 建 一 个 新 的 文本 文件 (或 荐 请 现 有 文件 )。 
在 交互 式 环 境 中 输入 以 下 内 容 : 


>>> from pathlib ;import Path 


>>> p = Path('spam.txt') 
>>> p.write text('Hello, world!') 
13 


>>> p.read text() 
'Hello, world!' 


这 些 方 法 将 创建 一 个 内 容 为 'Hello，world!' 的 spam.txt 文件 。 write text() 返 回 
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的 13 表示 已 将 13 个 字符 写 入 文件 。( 通 常 可 以 忽略 此 信息 。) read text() 方 法 以 字符 串 形 式 
读 取 并 返回 新 文件 的 内 容 : 'Hello，world!'。 

请 记 住 ， 这 些 Path 对 象 方法 仅 提 供与 文件 的 基本 交互 。 写 入 文件 的 更 常见 方式 涉及 使 用 
open ( ) 函数 和 文件 对 象 。 在 Python 中 ， 读 写 文 件 有 以 下 3 个 步骤 。 

1. 调用 open() 函 数 ， 返 回 一 个 File 对 象 。 

2. 调用 File 对 象 的 read() 或 write(I) 方 法 。 

3. 调用 File 对 象 的 close() 方 法 ， 关 闭 该 文件 。 

我 们 将 在 以 下 各 小 节 中 介绍 这 些 步 骤 。 


9.2.1 用 open() 函 数 打 开 文 件 


要 用 open() 函 数 打 开 一 个 文件 ， 就 要 向 它 传递 一 个 字符 串 路 径 ， 表 明 希 望 打开 的 文件 。 
这 既 可 以 是 绝对 路 径 ， 也 可 以 是 相对 路 径 。open( ) 函数 返回 一 个 File 对 象 。 

尝试 一 下 , 先 用 Notepad 或 TextEdit 创建 一 个 文本 文件 ,名 为 hel1o.txt。 输 入 Hello， 
world! 作 为 该 文本 文件 的 内 容 , 将 它 保存 在 你 的 用 户 文件 夹 中 。 然 后 在 交互 式 环境 中 输入 以 下 
代码 : 

>>> helloFile = open(Path.home() / “hello.txt') 

open() 函 数 还 可 以 接收 字符 串 。 如 果 你 使 用 Windows 操作 系统 ， 请 在 交互 式 环境 中 输入 
以 下 内 容 : 

>>> helloFile = open('C:\\Users\\your home folder\\hello.txt') 


如 果 使 用 macOS， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> helloFile = open('/Users/your home folder/hello.txt') 


请 确保 用 你 自己 的 计算 机 用 户 名 取代 your_ home folder。 例 如 ， 我 的 计算 机 用 户 名 是 Al， 
因此 我 在 Windows 操作 系统 下 输入 'C:\\Users\\Al\\hello.txt'。 

这 些 命令 都 将 以 “ 读 取 纯 文 本 模式 ”打开 文件 ， 或 简称 为 “ 读 模 式 ”。 当 文件 以 读 模式 打开 
时 ，Python 只 让 你 从 文件 中 读 取 数 据 ， 你 不 能 以 任何 方式 写 入 或 修改 它 。 在 Python 中 打开 文件 
时 ， 读 模式 是 默认 的 模式 。 但 如 果 你 不 希望 依赖 于 Python 的 默认 值 ， 也 可 以 明确 指明 该 模式 ， 
通过 向 open( ) 传 入 字符 串 'r' 作 为 第 二 个 参数 即 可 。open('/Users/Al/hello.txt',，'r') 和 
open('/Users/Al/hello.txt' ) 做 的 事情 一 样 。 

调用 open( ) 将 返回 一 个 File 对 象 。File 对 象 代表 计算 机 中 的 一 个 文件 ， 它 只 是 Python 
中 另 一 种 类 型 的 值 ， 就 像 你 已 熟悉 的 列表 和 字典 。 在 前 面 的 例子 中 ， 你 将 File 对 象 保 存在 
helloFile 变量 中 。 当 你 需要 读 取 或 写 入 该 文件 时 ， 就 可 以 调用 helloFile 变量 中 的 File 
对 象 的 方法 。 


9.2.2 ” 读 取 文件 内 容 
既然 有 了 一 个 File 对 象 ， 就 可 以 开始 从 它 里 面 读 取 内 容 。 如 果 你 希望 将 整个 文件 的 内 容 读 取 
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为 一 个 字符 串 值 ， 就 使 用 File 对 象 的 read() 方 法 。 让 我 们 继续 使 用 保存 在 helloFile 中 的 
hello.txt 这 一 File 对 象 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> helloContent = helloFile.read() 
>>> helloContent 
'Hello，worldl! 


如 果 你 将 文件 的 内 容 看 成 单个 大 字符 串 ，read () 方 法 就 返回 保存 在 该 文件 中 的 这 个 字符 串 。 

或 者 ， 可 以 使 用 readlines() 方 法 ， 从 该 文件 取得 一 个 字符 串 的 列表 。 列 表 中 的 每 个 字符 串 
就 是 文本 中 的 每 一 行 。 例 如 ， 在 hello.txt 所 处 的 文件 夹 中 ， 创 建 一 个 名 为 sonnet29.txt 的 
文件 ， 并 在 其 中 写 入 以 下 文本 : 


When, in disgrace with fortune and men'S eyes, 

I all alone beweep my outcast State， 

And trouble deaf heaven with my bootless cries， 
And look upon myself and curse my fate, 


确保 将 文本 分 为 4 行 。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> SonnetFile = open(Path.home()/'sonnet29.txt') 

>>> SonnetFile.readlines() 

[When, in disgrace with fortune and men'S eyes,\n', ' I all alone beweep my 
outcast state,\n', And trouble deaf heaven with my bootless cries Mn' ，And 
look Upon myself and curse my fate,'] 


请 注意 ， 除 了 文件 的 最 后 一 行 ， 每 个 字符 串 值 都 以 一 个 换行 符 \n 结束 。 与 单个 大 字符 串 相 
比 ， 字 符 串 的 列表 通常 更 容易 处 理 。 


9.2.3” 写 入 文件 


Python 允许 你 将 内 容 写 入 文件 ， 方 式 与 使 用 print () 函 数 将 字符 串 “ 写 ”到 屏幕 上 类 似 。 
但 是 ， 如 果 打 开 文 件 时 用 读 模式 ， 就 不 能 写 入 文件 。 你 需要 以 “ 写 入 纯 文 本 模式 ”或 “添加 纯 
文本 模式 ”打开 该 文件 ， 简 称 为 “ 写 模式 ”和 “添加 模式 ”。 

写 模式 将 覆 写 原 有 的 文件 ， 就 像 你 用 一 个 新 值 覆 写 一 个 变量 的 值 一 样 。 将 'w' 作为 第 二 个 
参数 传递 给 open( ) ， 以 写 模 式 打开 该 文件 。 不 同 的 是 ， 添 加 模式 将 在 已 有 文件 的 末尾 添加 文 
本 。 你 可 以 认为 这 类 似 于 向 一 个 变量 中 的 列表 添加 内 容 ， 而 不 是 完全 履 写 该 变量 。 将 'a ' 作为 
第 二 个 参数 传递 给 open ( ) ， 以 添加 模式 打开 该 文件 。 

如 果 传 递 给 open( ) 的 文件 名 不 存在 ， 则 写 模式 和 添加 模式 都 会 创建 一 个 新 的 空 文件 。 在 
读 取 或 写 入 文件 后 ， 调 用 close() 方 法 ， 然 后 才能 再 次 打开 该 文件 。 

让 我 们 整合 这 些 概念 。 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> baconFile = open('bacon.txt', 'w') 

>>> baconFile.write('Hello, world!\n’) 

13 

>>> baconFile.closel() 

>>> baconFile = open('bacon.txt', 'a') 

>>> baconFile.write('Bacon is not a vegetable.') 
25 

>>> baconFile.closel() 


>>> baconFile = open('bacon.txt') 
>>> content = baconFile.read!() 
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>>> baconFile.close() 

>>> print(content) 

Hello, world! 

Bacon is not a vegetable. 


首先 ， 我 们 以 写 模式 打开 bacon.txt。 因 为 还 没有 bacon.txt，Python 就 创建 了 一 个 。 在 打开 
的 文件 上 调用 write()， 并 向 write() 传 入 字符 串 参 数 'Hello，world! \n'， 将 字符 串 写 
入 文件 ， 并 返回 写 入 的 字符 个 数 ， 包 括 换行 符 。 然 后 关闭 该 文件 。 

为 了 将 文本 添加 到 文件 已 有 的 内 容 后 面 ， 而 不 是 取代 我 们 刚刚 写 入 的 字符 串 ， 我 们 就 以 添 
加 模式 打开 该 文件 。 向 该 文件 写 入 'Bacon is not a vegetable.'， 并 关闭 它 。 最 后 ， 为 了 
将 文件 的 内 容 输 出 到 屏幕 上 ， 我 们 以 默认 的 读 模 式 打开 该 文件 ， 调 用 read() ， 将 得 到 的 内 容 
保存 在 content 中 ， 关 闭 该 文件 ， 并 输出 content。 

请 注意 ,write () 方 法 不 会 像 print () 函 数 那样 在 字符 串 的 末尾 自动 添加 换行 符 ， 必 须 手 
动 添加 该 字符 。 

从 Python 3.6 开始 ， 还 可 以 将 Path 对 象 而 不 是 文件 名 字符 串 传递 给 open( ) 函数 。 


9.3 用 shelve 模块 保存 变量 


利用 shelve 模块 ， 你 可 以 将 Python 程序 中 的 变量 保存 到 二 进 制 的 shelf 文件 中 。 这 样 ， 区 
程序 就 可 以 从 硬盘 中 恢复 变量 的 数据 了 。shelve 模块 让 你 在 程序 中 添加 “保存 ”和 “打开 ” 
功能 。 例如， 如 果 运 行 一 个 程序 ， 并 输入 了 一 些 设 置 ， 就 可 以 将 这 些 设置 保存 到 一 个 shelf 文 
件 中 ， 然 后 让 程序 下 一 次 运行 时 加 载 它 们 。 

在 交互 式 环境 中 输入 以 下 代码 : 


>>> import shelve 

>>> ShelfFile = shelve.open('mydata') 
>>> cats = ['Zophie', 'Pooka'，'Simon'] 
>>> shelfFile['cats'] = cats 

>>> ShelfFile.closel() 


要 利用 shelve 模块 读 写 数据 ， 首 先 要 导入 它 。 调 用 函数 shelve .open() 并 传 入 一 个 文 
件 名 ， 然 后 将 返回 的 值 保 存在 一 个 变量 中 。 可 以 对 这 个 变量 的 shelf 值 进行 修改 ， 就 像 它 是 一 
个 字典 一 样 。 当 你 完成 时 ， 在 这 个 shelf 值 上 调用 close() 。 这 里 的 shelf 值 保 存在 
shelfFile 中 。 我们 创建 了 一 个 列表 cats, 并 写 下 shelfFile['cats'] =cats, 以 将 cats 
列表 保存 在 shelfFile 中 ， 并 作为 键 'cats' 关 联 的 值 ( 就 像 在 字典 中 一 样 )。 然 后 我 们 在 
shelfFile 上 调用 close()。 请 注意 ,在 Python 3.7 及 之 前 版 本 中 ,你 必须 向 shelf 方法 open() 
传 入 字符 串 文 件 名 ， 否 则 你 无 法 向 它 传 入 Path 对 象 。 

在 Windows 操作 系统 上 运行 前 面 的 代码 ， 你 会 看 到 在 当前 工作 目录 下 有 3 个 新 文件 : 
mydata.bak、mydata.dat 和 mydata.dir。 在 macOS 上 ， 只 有 mydata.db 文件 会 被 创建 。 

这 些 二 进 制 文件 包含 了 存储 在 shelf 中 的 数据 。 这 些 二 进 制 文 件 的 格式 并 不 重要 ， 你 只 需 
要 知道 shelve 模块 做 了 什么 ， 而 不 必 知 道 它 是 怎么 做 的 。 该 模块 让 你 不 用 操心 如 何 将 程序 的 
数据 保存 到 文件 中 。 
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你 的 程序 稍 后 可 以 使 用 shelve 模块 重新 打开 这 些 文件 并 取出 数据 。shelf 值 不 必用 读 模 
式 或 写 模式 打开 ， 因 为 它们 在 打开 后 既 能 读 又 能 写 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> shelfFile = shelve.open('mydata ') 
>>> type(shelfFile) 

<class 'shelve.DbfilenameShelf'> 

>>> shelfFile['cats'] 

[ 'Zophie', 'Pooka', 'Simon'] 

>>> ShelfFile.closel() 


这 里 , 我们 打开 了 shelf 文件 ,检查 我 们 的 数据 是 否 正确 存储 。 输 入 shelfFile['cats'] 
将 返回 我 们 前 面 保存 的 同一 个 列表 ， 这 样 我 们 就 知道 该 列表 得 到 了 正确 存储 ， 然 后 调用 
close()。 

就 像 字 典 一 样 ，shelf 值 有 keys() 和 values() 方 法 ， 它 们 返回 shelf 中 键 和 值 的 类 似 
列表 的 值 。 因 为 这 些 方法 返回 类 似 列表 的 值 , 而 不 是 真正 的 列表 , 所 以 应 该 将 它们 传递 给 1ist () 
函数 来 取得 列表 的 形式 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> ShelfFile = shelve.open('mydata') 
>>> list(shelfFile.keys()) 

['cats'] 

>>> list(shelfFile.values!()) 
[['Zophie'’, 'Pooka', 'Simon']] 

>>> shelfFile.close() 


在 创建 文件 时 ， 如 果 你 需要 在 Notepad 或 TextEdit 这 样 的 文本 编辑 器 中 读 取 它 们 ， 那 么 使 
用 纯 文本 就 非常 有 用 。 但 是 ， 如 果 想 要 保存 Python 程序 中 的 数据 ， 那 就 使 用 shelve 模块 。 


9.4 用 pprint.pformat() 函 数 保存 变量 


回忆 一 下 , 在 $.2 节 “ 美 观 地 输出 ”中 , pprint.pprint() 函 数 将 列表 或 字典 中 的 内 容 “ 美 
观 地 输出 ”到 屏幕 ， 而 pprint.pformat () 函 数 将 返回 同样 的 文本 字符 串 ， 但 不 是 输出 它 。 这 
个 字符 串 不 仅 是 易于 阅读 的 格式 ， 同 时 也 是 语法 正确 的 Python 代码 。 假 定 你 有 一 个 字典 ， 保 存在 
一 个 变量 中 ， 你 希望 保存 这 个 变量 和 它 的 内 容 ， 以 便 将 来 使 用 。pprint.pformat () 困 数 将 提供 
一 个 字符 串 ， 你 可 以 将 它 写 入 .py 文件 。 该 文件 将 成 为 你 自己 的 模块 ， 如 果 你 需要 使 用 存储 在 其 
中 的 变量 ， 就 可 以 导入 它 。 

例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import pprint 

>>> cats = [{'name': 'Zophie', 'desc': 'chubby'}, {'name': 'Pooka', 'desc': ‘fluffy'}] 
>>> pprint.pformat(cats) 

[ec “ChuUbby "name”: "zophie"}, {'desc’s “Tluffy’, ‘name': "Pooka’ 十] 


>>> file0bj = open('myCats.py', 'w') 
>>> fileObj.write('cats = ' + pprint.pformat(cats) + '\n’) 
83 


>>> file0bij.closel() 


这 里 ， 我 们 导入 了 pprint， 以 便 能 使 用 pprint .pformat()。 我 们 有 一 个 字典 的 列表 ， 
保存 在 变量 cats 中 。 为 了 让 cats 中 的 列表 在 关闭 交互 式 环境 后 仍然 可 用 ， 我 们 利用 
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pprint.pformat () 将 它 返回 为 一 个 字符 串 。 当 我 们 有 了 cats 中 数据 的 字符 串 形式 ， 就 很 容 
易 将 该 字符 串 写 入 一 个 文件 ， 我 们 将 它 命名 为 myCats.py。 

import 语句 导入 的 模块 本 身 就 是 Python 脚本 。 如果 将 来 自 pprint.pformat() 的 字符 串 
保存 为 一 个 .py 文件 ， 那 么 该 文件 就 是 一 个 可 以 导入 的 模块 ， 像 其 他 模块 一 样 。 

由 于 Python 脚本 本 身 也 是 带 有 .py 文件 扩展 名 的 文本 文件 ， 因 此 你 的 Python 程序 甚至 可 以 
生成 其 他 Python 程序 ， 然 后 可 以 将 这 些 文件 导入 脚本 中 : 


>>> import myCats 

>>> myCats.cats 

[{'name': ‘Zophie', 'desc': 'chubby'’}, {'name': 'Pooka', 'desc': ‘'fluffy'}] 
>>> myCats.cats[0] 

{'name': 'Zophie', 'desc': 'chubby'} 

>>> myCats.cats[0]['name'] 

'Zophie' 


创建 一 个 .py 文件 (而 不 是 利用 shelve 模块 保存 变量 ) 的 好 处 在 于 ， 因 为 它 是 一 个 文本 文 
件 ， 所 以 任何 人 都 可 以 用 一 个 简单 的 文本 编辑 器 读 取 和 修改 该 文件 的 内 容 。 但 是 ， 对 于 大 多 数 
应 用 ， 利 用 shelve 模块 来 保存 数据 是 将 变量 保存 到 文件 的 最 佳 方式 。 只 有 基本 数据 类 型 ， 如 
整 型 、 浮 点 型 、 字 符 串 、 列 表 和 字典 ， 可 以 作为 简单 文本 写 入 一 个 文件 。 例 如 ，File 对 象 就 不 
能 编码 为 文本 。 


9.5 项 目 : 生成 随机 的 测验 试卷 文件 


假如 你 是 一 位 地 理 老 师 ， 班 上 有 35 名 学 生 ， 你 希望 进行 关于 美国 各 州 首府 的 一 个 小 测验 。 
不 妙 的 是 ， 你 无 法 确保 学 生 不 会 作 浆 。 你 希望 随机 调整 问题 的 次 序 ， 这 样 每 份 试 卷 都 是 独 一 无 
二 的 ， 这 让 任何 人 都 不 能 从 其 他 人 那里 抄袭 答案 。 当 然 ， 手 动 完 成 这 件 事 又 费时 、 双 无聊。 好 
在 ， 你 懂 一 些 Python 知识 。 

程序 需要 完成 以 下 任务 。 

1. 创建 35 份 不 同 的 测验 试卷 。 

2. 为 每 份 试 卷 创建 50 个 选择 题 ， 次 序 随机 。 

3. 为 每 个 问题 提供 一 个 正确 答案 和 3 个 随机 的 错误 答案 ， 次 序 随机 。 

4. 将 测验 试卷 写 到 35 个 文本 文件 中 。 

5. 将 答案 写 到 35 个 文本 文件 中 。 

这 意味 看 代码 需要 执行 以 下 操作 。 

1. 将 各 州 和 它们 的 首府 保存 在 一 个 字典 中 。 

2. 针对 测验 文本 文件 和 答案 文本 文件 ， 调 用 open()、write() 和 close()。 

3. 利用 random.shuffle() 随 机 调整 问题 和 多 重 选项 的 次 序 。 


第 1 步 : 将 测验 数据 保存 在 一 个 字典 中 


创建 一 个 脚本 框架 ， 并 填 入 测验 数据 。 创 建 一 个 名 为 randomQuizGenerator.py 的 文件 ， 让 
它 看 起 来 像 这 样 : 
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#! python3 
# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer Kkey. 


©@ import random 


# The quiz data. Keys are states and values are their capitals. 

© capitals = {'Aiabama': 'Montgomery'， 'Alaska': ‘Juneau'’, ‘Arizona': 'Phoenix', 
'Arkansas': 'Litt1le Rock', ‘California'’: 'Sacramento', ‘'Colorado': ‘Denver', 
'Connecticut': 'Hartford':，'Delaware': 'Dover', 'Florida': 'Tallahassee', 
'Georgia': 'Atlanta'，'Hawaii': 'Honolulu'，'Idaho': 'Boise'， ‘Illinois': 
'Springfield'，'Indiana': ‘Indianapolis', 'Iowa': 'Des Moines', "KanSas : 
‘Topeka', ‘Kentucky': 'Frankfort', 'Louisiana': ‘Baton Rouge', 'Maine': 
'Augusta', ‘Maryland': 'Annapolis', 'Massachusetts': ‘'Boston', ‘Michigan': 
'Lansing'，'Minnesota': 'Saint Paul', 'Mississippi'’: 'Jackson', 'Missouri': 
'Jefferson City', ‘Montana': ‘Helena', 'Nebraska': 'Lincoln', ‘Nevada': 
'Carson City', 'New Hampshire': 'Concord', 'New Jersey': 'Trenton', New 
Mexico': 'Santa Fe'，'New York': 'Albany'， 'North Carolina': ‘Raleigh', 
'North Dakota': 'Bismarck', 'Ohio': 'Columbus'，'0klahoma': 'Oklahoma City', 
'Oregon': 'Salem', 'Pennsylvania': 'Harrisburg'， 'Rhode Island': ‘Providence', 
'South Carolina': ‘Columbia', 'South Dakota': 'Pierre', 'Tennessee': 
'Nashville', 'Texas': 'Austin'， 'Utah': 'Salt Lake City', 'Vermont': 
'Montpelier'，'Virginia': 'Richmond', 'Washington': ‘Olympia', 'West 
Virginia': 'Charleston', 'Wisconsin': 'Madison'’, 'Wyoming': ‘Cheyenne'} 


# Generate 35 quiz files. 


@ for quizNum in range(35): 
# TODO: Create the quiz and answer key files. 


# TODO: Write out the header for the quiz. 
# TODO: Shuffle the order of the states. 


# TODO: Loop through all 50 states, making a question for each. 


因为 这 个 程序 将 随机 安排 问题 和 答案 的 次 序 ， 所 以 需要 导入 random 模块 @， 以 便利 用 其 
中 的 函数 。capitals 变量 四 包含 一 个 字典 ， 以 美国 州 名 作为 键 ， 以 州 首府 作为 值 。 因 为 你 布 
望 创建 35 份 测验 试卷 ， 所 以 实际 生成 测验 试卷 和 答案 文件 的 代码 〈 暂 时 用 TODO 注释 标注 ) 
会 放 在 一 个 for 循环 中 , 循环 35 次 @ (这 个 数字 可 以 改变 , 可 生成 任何 数目 的 测验 试卷 文件 )。 


第 2 步 :创建 测验 文件 ， 并 打 乱 问题 的 次 序 


现在 是 时 候 填 入 那些 TODO 了 。 

循环 中 的 代码 将 重复 执行 35 次 〈 每 次 生成 一 份 测验 试卷 )， 因 此 在 循环 中 ， 你 只 需要 考虑 
生成 一 份 测验 试卷 。 首 先 你 要 创建 一 个 实际 的 测验 试卷 文件 ， 它 需要 有 唯一 的 文件 名 ， 并 且 有 
某 种 标准 的 标题 部 分 ， 还 要 留 出 位 置 ， 让 学 生 填写 姓名 、 日 期 和 班级 。 然 后 需要 得 到 随机 排列 的 
州 的 列表 ， 稍 后 将 用 它 来 创建 测验 试卷 的 问题 和 答案 。 

在 randomQuizGenerator.py 中 添加 以 下 代码 行 : 


#! python3 
# randomQUizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 


- -SNip-- 


# Generate 35 quiz files. 
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for ar in range(35) : 
Create the quiz and answer key files. 
E13 a = open(f'capitalsquiz{quizNum + 1}.txt', ‘'w') 
© answerKeyFile = open(f'capitalsquiz answers{quizNum + 1}.txt'，'wW') 


# Write out the header for the quiz. 

© quizFile.write('Name:\n\nDate: \n\nPeriod: \n\n') 
quizFile.write((' ' * 20) + f'State Capitals Quiz (Form{quizNum + 1})') 
quizFile.write('\n\n') 


# Shuffle the order of the states. 
states = list(capitals.keys()) 
© random.shuffle(states) 


# TODO: Loop through all 50 states, making a question for each. 


测验 试卷 的 文件 名 将 是 capitalsquiz<N>.txt, 其 中 <N> 是 该 测验 试卷 的 唯一 编号 , 来 自 quizNum,， 
即 for 循环 的 计数 器 。capitalsquiz<N>.txt 的 答案 将 保存 在 一 个 文本 文件 中 ， 名 为 
capitalsquiz_ answers<N>.txt 。 每 次 执行 循环 ，'capitalsquiz%s.txt' 和 'capitalsquiz 
answers%s .txt ' 中 的 占 位 符 %s 都 将 被 (quizNum + 1) 取 代 ， 所 以 第 一 份 测验 试卷 和 答案 将 是 
capitalsquiz1.txt 和 capitalsquiz answersl.tkt。@ 和 人 @ 的 open( ) 函数 将 创建 这 些 文件 ， 以 'w' 作 为 第 
二 个 参数 ， 以 写 模式 打开 它们 。 

四处 的 write() 语 句 创 建 了 测验 标题 ， 让 学 生 填 写 。 最 后 ， 利 用 random. shuffle() 函 
数 @ 来 创建 美国 州 名 的 随机 列表 。 该 函数 重新 随机 排列 传递 给 它 的 列表 中 的 值 。 


第 3 步 : 创建 答案 选项 


现在 需要 为 每 个 问题 生成 答案 选项 ， 这 将 是 A 到 D 的 多 项 选择 。 你 需要 创建 另 一 个 for 
循环 ， 该 循环 生成 测验 试卷 的 50 个 问题 的 内 容 。 然 后 里 面 会 髓 套 第 三 个 for 循环 ， 为 每 个 问 
题 生成 多 重 选 项 。 让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# randomQuizGenerator .py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 


- -SNiD-- 


# Loop through all 50 states, making a question for each. 
for questionNum in range(50): 


# Get right and wrong answers. 
© correctAnswer = capitals[states[questionNum]] 
@ wrongAnswers 一 list(capitals.values!()) 
©@ del wrongAnswers[wrongAnswers,.index(correctAnswer)] 
@ wrongAnswers = random.sample(wrongAnswers, 3) 
© answerOptions = wrongAnswers + [correctAnswer] 
© random.shuffle(answerOptions) 


# TODO: Write the question and answer options to the quiz file. 
# TODO: Write the answer key to a file. 
很 容易 得 到 正确 的 答案 ， 它 作为 一 个 值 保存 在 capitals 字典 中 @。 这 个 循环 将 遍历 打 乱 
的 states 列表 中 的 州 (从 states[0] 到 states[49])， 在 capitals 中 找到 每 个 州 ， 将 该 
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州 对 应 的 首府 保存 在 correctAnswer 中 。 

设置 错误 答案 列表 需要 使 用 一 点 技巧 。 你 可 以 从 capitals 字典 中 复制 所 有 的 值 @， 删 除 
正确 的 答案 日， 然后 从 该 列表 中 选择 3 个 随机 的 值 @。random.sample() 函 数 使 得 这 种 选择 很 
容易 ， 它 的 第 一 个 参数 是 你 希望 选择 的 列表 ， 第 二 个 参数 是 你 希望 选择 的 值 的 个 数 。 完 整 的 答 
案 选 项 列表 是 这 3 个 错误 答案 与 正确 答案 的 组 合 @。 最 后 ， 答 案 需 要 随机 排列 @， 这 样 正确 的 
答案 就 不 会 总 是 设置 为 选项 D。 


第 4 步 : 将 内 容 写 入 测验 试卷 和 答案 文件 
剩 下 来 就 是 将 问题 写 入 测验 试卷 文件 ， 将 答案 写 入 答案 文件 。 让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# randomQuizGenerator.py - Creates quizzes with questions and answers in 
# random order, along with the answer key. 


--SNip-- 


# Loop through all 50 states, making a question for each. 
for questionNum in range(50): 
--SNip-- 


# Write the question and the answer options to the quiz file. 
quizFile.write(f'{questionNum + 1}. What is the capital of 
{states[questionNum] }?\n') 
0 for i in range(4): 
© quizFile.write(f" {'ABCD' [i]}. { answerOptions[i]}\n") 
quizFile.write('\n’') 


# Write the answer key to a file. 
© answerKeyFile.write(f"{questionNum + 1}. 
{'ABCD' [answerOptions.index(correctAnswer)]}") 
quizFile.close() 
answerKeyFile.closel() 


使 用 一 个 遍历 整数 0 一 3 的 for 循环 , 将 答案 选项 写 入 answer0ptions 列表 @。@ 处 的 表 
达 式 'ABCD' [ij] 将 字符 串 'ABCD ' 看 成 一 个 数组 ， 它 在 循环 的 每 次 达 代 中 ， 将 分 曾 求 值 为 'A'、 
和 

在 最 后 一 行 @， 表 达 式 answerOptions.index(correctAnswer) 将 在 随机 排序 的 答案 
选项 中 找到 正确 答案 的 整数 索引 , 并 且 'ABCD' [answerOptions. index(correctAnswer)] 
将 求 值 为 正确 答案 的 字母 写 入 答案 文件 中 。 

在 运行 该 程序 后 ， 下 面 就 是 capitalsquizl.txt 文件 看 起 来 的 样子 。 但 是 ， 你 的 问题 和 答案 
选项 与 这 里 显示 的 可 能 会 不 同 。 这 取决 于 random.shuffle() 调 用 的 结果 : 

Name : 

Date : 


Period : 


State Capitals Quiz (Form 1) 
1. What is tne capital of West Virginia? 
A. Hartford 
B. Santa Fe 
C. Harrisburg 
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D. Charleston 


2. What is the capital of Colorado? 
A. Raleigh 
B. Harrisburg 
C. Denver 
D. Lincoln 


- -SNip-- 


对 应 的 capitalsquiz answersl.txt 文本 文件 看 起 来 像 这 样 : 


9.6 项目 : 创建 可 更 新 的 多 重 剪 贴 板 


让 我 们 重 写 第 6 章 中 的 “多 重 剪贴 板 ” 程 序 ， 让 它 使 用 shelve 模块 。 用 户 现 在 可 以 保存 
新 字符 串 ， 以 便 加 载 到 剪贴 板 ， 而 无 须 修 改 源 代码 。 我 们 将 这 个 新 程序 命名 为 mcb.pyw (因为 
输入 “mcb” 比 “multi-clipboard” 更 短 )。.pyw 扩展 名 意味 着 Python 在 运行 该 程序 时 不 会 显示 
命令 行 窗口 。( 更 多 详细 信息 请 参见 附录 B。) 

该 程序 将 利用 一 个 关键 字 保 存 每 段 剪贴 板 文 本 。 例 如 ， 当 运行 py mcb.pyw save spam 
时 ， 剪 贴 板 中 当前 的 内 容 就 用 关键 字 spam 保存 。 运 行 py mcb .pyw spam， 这 段 文本 稍 后 将 
重新 加 载 到 剪贴 板 中 。 如 果 用 户 筷 记 了 都 有 哪些 关键 字 ， 可 以 运行 py mcb .pyw 1List， 将 所 
有 关键 字 的 列表 复制 到 剪贴 板 中 。 

程序 需要 完成 以 下 任务 。 

1. 针对 要 检查 的 关键 字 来 提供 命令 行 参数 。 

2. 如 果 参 数 是 save， 那 么 将 剪贴 板 的 内 容 保存 到 关键 字 。 

3. 如 果 参 数 是 1ist， 就 将 所 有 的 关键 字 复 制 到 剪贴 板 。 

4. 否则 ， 就 将 关键 字 对 应 的 文本 复制 到 剪贴 板 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 从 sys .argyv 读 取 命令 行 参数 。 

2. 恋 写 剪贴 板 。 

3. 保存 并 加 载 shelf 文件 。 

如 果 你 使 用 Windows 操作 系统 ， 那 么 可 以 创建 一 个 名 为 mcb.bat 的 批 处 理 文件 ， 通 过 
“Run...” 窗 口 运 行 这 个 脚本 很 容易 。 该 批 处 理 文件 包含 如 下 内 容 : 


@pyw.exe C:\Python34\mcb .pyW %* 


第 1 步 : 注释 和 shelf 设置 
我 们 从 一 个 脚本 框架 开始 ， 其 中 包含 一 些 注释 和 基本 设置 ， 让 你 的 代码 看 起 来 像 这 样 : 
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#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 
© # Usage: py.exe mcb.pyw save <keyword> - Saves clipboard to keyword. 
四 py.exe mcb.pyw <keyword> - Loads keyword to clipboard . 
# py.exe mcb.pyw list - Loads all keywords to clipboard. 


© import shelve, pyperclip, sys 
© mcbShelf = shelve.open('mcb') 
# TODO: Save clipboard content. 
# TODO: List keywords and load content. 
mcbShelf.close() 
将 一 般 用 法 信息 放 在 文件 顶部 的 注释 中 , 这 是 常见 的 做 法 @。 如 果 忘 了 如 何 运行 这 个 脚本 ， 
就 可 以 看 看 这 些 注释 ， 帮助 自 己 回 忆 起 来 。 然 后 导入 模块 @。 复 制 和 粘贴 需要 使 用 pyperclip 
模块 ， 读 取 命 令 行 参数 需要 使 用 sys 模块 。shelve 模块 也 需要 准备 好 。 当 用 户 希 望 保存 一 段 
剪贴 板 文本 时 ， 你 需要 将 它 保存 到 一 个 shelf 文件 中 。 然 后 ， 当 用 户 希 望 将 文本 复制 回 剪 贴 板 
时 , 你 需要 打开 shelf 文件 , 将 它 重 新 加 载 到 程序 中 。 这 个 shelf 文件 命名 时 带 有 前 级 mcb 利 。 


第 2 步 : 用 一 个 关键 字 保 存 剪 贴 板 内 容 


当 用 户 希望 将 文本 保存 到 一 个 关键 字 ， 或 加 载 文 本 到 剪贴 板 ， 或 列 出 已 有 的 关键 字 时 ， 
该 程序 做 的 事情 就 不 一 样 了 。 让 我 们 来 处 理 第 一 种 情况 ， 让 你 的 代码 看 起 来 像 这 样 : 
#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 
--SNip-- 
# Save clipboard content. 
09 if len(sys.argv) == 3 and sys.argv[1].lower() == 'save': 
© mcbShelf[sys.argv[2]] = pyperclip.pastel() 
elif len(sys.argv) == 2: 
© # TODO: List keywords and load content. 


mcbShelf .close() 


全 Vy 


如 果 第 一 个 命令 行 参数 〈 它 总 是 在 sys.argv 列表 的 索引 1 处 ) 是 字符 串 'save' @， 那 
么 第 二 个 命令 行 参 数 就 是 保存 前 贴 板 当前 内 容 的 关键 字 。 关 键 字 将 用 作 mcbShelf 中 的 键 ， 值 
就 是 当前 剪贴 板 上 的 文本 @@。 

如 果 只 有 一 个 命令 行 参数 ， 就 假定 它 要 么 是 "1ist'， 要 么 是 需要 加 载 到 前 贴 板 的 关键 字 。 
稍 后 你 将 实现 这 些 代 码 ， 现 在 只 是 放 上 一 条 T0D0 注释 目 。 


第 3 步 ， 列 出 关键 字 和 加 载 关键 字 的 内 容 


最 后 ， 让 我 们 实现 剩 下 的 两 种 情况 。 用 户 币 望 从 关键 字 加 载 文 本 到 硼 贴 板 ， 或 布 望 列 出 所 
有 可 用 的 关键 字 。 让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# mcb.pyw - Saves and loads pieces of text to the clipboard. 
--SNip-- 
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# Save clipboard content. 
if len(sys.argv) == 3 and sys.argv[1].lower() == 'Save': 
mcbShelf[sys.argv[2]] = pyperclip.pastel() 
elif len(sys.argv) == 2: 
# List keywords and load content. 
© if sys.argv[1] .lower() == 'list': 
© pyperclip.copy(str(list(mcbShelf.keys()))) 
elif sys.argv[1] in mcbShelf: 
© pyperclip.copy(mcbShelf[sys.argv[1]]) 


mcbShelf .closel() 


如 果 只 有 一 个 命令 行 参数 ， 首 先 检查 它 是 不 是 '1list' @。 如 果 是 ， 表 示 shelf 键 的 列表 
的 字符 串 将 被 复制 到 剪贴 板 @@。 用 户 可 以 将 这 个 列表 复制 到 一 个 打开 的 文本 编辑 器 进行 查看 。 
否则 ， 你 可 以 假定 该 命令 行 参数 是 一 个 关键 字 。 如 果 这 个 关键 字 是 shelf 中 的 一 个 键 ， 就 可 以 
将 对 应 的 值 加 载 到 剪贴 板 目 。 

加 载 这 个 程序 有 几 个 不 同步 骤 ， 这 取决 于 你 的 计算 机 使 用 哪 种 操作 系统 。 请 查看 附录 B， 
了 解 操作 系统 的 详情 。 

回忆 一 下 第 6 章 中 创建 的 多 剪贴 板 程序 ， 它 将 文本 保存 在 一 个 字典 中 。 更 新 文本 需要 更 改 
该 程序 的 源 代码 。 这 不 太 理 想 ， 因 为 普通 用 户 不 太 适 应 通过 更 改 源 代码 来 更 新 他 们 的 软件 。 而 
且 ， 每 次 修改 程序 的 源 代 码 时 ， 就 有 可 能 不 小 心 引 入 新 的 bug。 将 程序 的 数据 保存 在 不 同 的 地 
方 ， 而 不 是 在 代码 中 ， 就 可 以 让 别人 更 容易 使 用 你 的 程序 ， 并 且 更 不 容易 出 错 。 


9.7 “小结 


文件 被 组 织 在 文件 夹 中 (也 称 为 目录 )， 路 径 描述 了 一 个 文件 的 位 置 。 运行 在 计算 机 上 的 每 
个 程序 都 有 一 个 当前 工作 目录 ， 它 让 你 相对 于 当前 的 位 置 指 定 文 件 路 径 ， 而 非 总 是 需要 完整 路 
径 〈 绝 对 路 径 )。path1lib 和 os .path 模块 包含 许多 用 于 操作 文件 路 径 的 函数 。 

你 的 程序 也 可 以 直接 操作 文本 文件 的 内 容 。open ( ) 函数 将 打开 这 些 文件 , 将 它们 的 内 容 读 
取 为 一 个 大 字符 串 〈 利 用 read ( ) 方 法 )， 或 读 取 为 字符 串 的 列表 (利用 readlines() 方 法 )。 
0pen( ) 函 数 可 以 将 文件 以 写 模 式 或 添加 模式 打开 , 分 别 用 于 创建 新 的 文本 文件 或 在 原 有 的 文本 
文件 中 添加 内 容 。 

在 前 面 几 章 中 ， 你 利用 剪贴 板 在 程序 中 获得 大 量 文本 ， 而 不 是 手动 输入 。 现 在 你 可 以 用 程序 直 
接 读 取 硬盘 上 的 文件 ， 这 是 一 大 进步 。 因 为 文件 比 剪 贴 板 更 不 易 变化 。 

在 下 一 章 中 ， 你 将 学 习 如 何 处 理 文件 本 身 ， 包 括 复制 、 删 除 、 重 命名 、 移 动 等 。 


9.8 习 宦 


， 相对 路 径 是 相对 于 什么 ? 

.绝对 路 径 从 什么 开始 ? 

， 在 Windows 操作 系统 上 ，Path('C:/ Users' )/'Al' 的 求 值 结果 是 什么 ? 
， 在 Windows 操作 系统 上 ，'C: /Users' / 'Al' 的 求 值 结果 是 什么 ? 


jb ww by wb 
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os.getcwd() 和 os.chdir() 函 数 做 什么 事 ? 

. .和 .. 文 件 夹 是 什么 ? 

.在 C:\bacon\eggs\spam.txt 中 ， 哪 一 部 分 是 目录 名 称 ， 哪 一 部 分 是 基本 名 称 ? 
， 可 以 传递 给 open( ) 函 数 的 3 种 “模式 ”参数 是 什么 ? 

. 如果 已 有 的 文件 以 写 模式 打开 ， 会 发 生 什么 ? 

10. read() 和 readlines() 方 法 之 间 的 区 别 是 什么 ? 

11. shelf 值 与 什么 数据 结构 相似 ? 


9.9 实践 项 目 
作为 实践 ， 设 计 并 编写 下 列 程序 。 
9.9.1 扩展 多 重 勇 巾 板 


扩展 本 章 中 的 多 重 前 贴 板 程序 ， 增 加 一 个 delete <keyword> 命 令 行 参 数 ， 它 将 从 shelf 
中 删除 一 个 关键 字 。 然 后 添加 一 个 delete 命令 行 参数 ， 它 将 删除 所 有 关键 字 。 


9.9.2 疯狂 填词 


创建 一 个 疯狂 填词 (Mad Libs) 程序 ， 它 将 读 入 文本 文件 ， 并 让 用 户 在 该 文本 文件 中 出 现 
ADJECTIVE、NOUN、ADVERB 或 VERB 等 单词 的 地 方 加 上 他 们 自己 的 文本 。 例 如 ， 一 个 文 
本 文件 可 能 看 起 来 像 这 样 : 


The ADJECTIVE panda walked to the NOUN and then VERB. A nearby NOUN was 
unaffected by these events. 


程序 将 找到 这 些 出 现 的 单词 ， 并 提示 用 户 取 代 它 们 : 


Enter an adjective: 
silly 

Enter a noun: 
Chandelier 

Enter a verb: 
screamed 

Enter a noun: 
pickup truck 


以 下 的 文本 文件 将 被 创建 : 


The silly panda walked to the chandelier and then screamed. A nearby pickup 
truck was vnaffected by these events. 


结果 应 该 输出 到 屏幕 上 ， 并 保存 为 一 个 新 的 文本 文件 。 
9.9.3 正则 表达 式 碍 找 


编写 一 个 程序 ， 以 打开 文件 夹 中 所 有 的 .txt 文件 ， 并 得 找 匹配 用 户 提供 的 正则 表达 陈 的 二 
有 行 。 结 果 应 该 输出 到 屏幕 上 。 


‘ON 


组 织 文 件 


在 第 9 章 中 ， 你 学 习 了 如 何 用 Python 创建 并 写 入 新 文件 。 你 的 程序 也 
可 以 组 织 硬盘 上 已 经 存在 的 文件 。 也许 你 曾经 经 历 过 查找 一 个 文件 夹 ， 里 面 
有 几 十 个 、 几 百 个 ， 甚 至 上 千 个 文件 ， 需 要 手动 进行 复制 、 重 命名 、 移 动 或 
压缩 。 或 者 你 需要 完成 下 面 这 样 的 任务 。 

口 在 一 个 文件 夹 及 其 所 有 子 文件 夹 中 ,复制 所 有 的 PDF 文件 ( 且 只 复 

制 PDF 文件 )。 
口 针对 一 个 文件 夹 中 的 所 有 文件 ， 删 除 文件 名 中 前 导 的 零 ， 该 文件 夹 
中 有 数 百 个 文件 ， 名 为 spam001.txt、spam002.txt、spam003.txt 等 。 

口 将 几 个 文件 夹 的 内 容 压 缩 到 一 个 ZIP 文件 中 (这 可 能 是 一 个 简单 的 备份 系统 )。 

所 有 这 种 繁琐 的 任务 ， 都 可 以 用 Python 实现 自动 化 。 通 过 对 计算 机 编程 来 完成 这 些 任务 ,你 就 
把 它 变 成 了 一 个 快速 工作 的 文件 职员 ， 而且 从 不 犯错 。 

在 开始 处 理 文件 时 你 会 发 现 ， 如 果 能 够 很 快 查看 文件 的 扩展 名 ( .txt、.pdf、.jpg 等 ) 是 很 有 帮 
助 的。 在 macOS 和 Linux 操作 系统 上 ,文件 浏览 器 很 有 可 能 自动 显示 扩展 名 。 在 Windows 操作 系 
统 上 ， 文 件 扩展 名 可 能 默认 是 隐藏 的 ， 要 显示 扩展 名 ， 请 选择 Start 》 Control Panel Appearance and 
Personalization 》 Folder 选项 。 在 View 选项 卡 的 Advanced Settings 之 下 , 取消 选中 Hide extensions for 
known file types 复 选 框 。 


10.1 shutil 模块 


shutil (或 称 为 shell 工具 ) 模块 中 包含 一 些 函 数 ， 让 你 可 以 在 Python 程序 
中 复制 、 移 动 、 重 命名 和 删除 文件 。 要 使 用 shutil 的 函数 ,首先 需要 导入 shutil 
模块 。 


10.1.1 复制 文件 和 文件 夹 


shutil 模块 提供 了 一 些 函 数 ， 用 于 复制 文件 和 整个 文件 夹 。 

调用 shutil.copy(source，destination)， 将 路 径 source 处 的 文件 复制 到 路 径 
destination 处 的 文件 夹 (source 和 destination 都 是 字符 串 )。 如 果 destination 是 一 
个 文件 名 , 那么 它 将 作为 被 复制 文件 的 新 名 字 。 该 函数 返回 一 个 字符 串 , 表示 被 复制 文件 的 路 径 。 

在 交互 式 环境 中 输入 以 下 代码 ， 看 看 shutil .copy() 的 效果 : 
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>>> import shyutil, os 
>>> from pathlib import Path 
>>> p = Path.home() 

© >>> shutil.copy(p/'spam.txt', p / 'some_ folder') 
'C:\\Users\\Al\\some folder\\spam.txt' 

© >>> shutil.copy(p / ‘eggs.txt', p / 'some_folder/eggs2.txt') 
WindowsPath('C:/Users/Al/some folder/eggs2.txt'") 


第 一 个 shutil.copy() 方 法 将 文件 C:\Users\Alspam.txt 复制 到 文件 夹 C:\Users\AlNsome_ 
folder。 返回 值 是 刚刚 被 复制 的 文件 的 路 径 。 请 注意 , 因为 只 是 指定 了 一 个 文件 夹 作为 目的 地 @， 
所 以 原来 的 文件 名 spam.txt 就 被 用 作 新 复制 的 文件 名 。 第 二 个 shutil.copy() 方 法 @ 也 将 文件 
C:\Users\Al\eggs.txt 复制 到 文件 夹 C:\Users\AlNsome_folder， 但 为 新 文件 提供 了 一 个 名 字 eggs2.txt。 

shutil,copy() 将 复制 一 个 文件 ，shutil.copytree() 将 复制 整个 文件 夹 以 及 它 包含 的 
文件 夹 和 文件 。 调 用 shutil.copytree(source，destination)， 将 路 径 source 处 的 文 
件 夹 (包括 它 的 所 有 文件 和 子 文件 夹 ) 复 制 到 路 径 destination 处 的 文件 夹 。source 和 
destination 参数 都 是 字符 串 。 该 函数 返回 一 个 字符 串 ， 该 字符 串 是 新 复制 的 文件 夹 的 路 径 。 

在 交互 式 环境 中 输入 以 下 代码 : 


>>> import shutil, os 

>>> from pathlib import Path 

>>> p = Path.home() 

>>> shutil.copytree(p / 'spam'’, p / ‘spam backup') 
WindowsPath('C:/Users/Al/spam backup') 


调用 shutil.copytree( ) 创 建 了 一 个 名 为 spam_backup 的 新 文件 夹 ， 其 中 的 内 容 与 原来 
的 bacon 文件 夹 一 样 。 现 在 你 已 经 备份 了 非常 宝贵 的 “spam”。 


10.1.2 ”文件 和 文件 夹 的 移动 与 重 命 名 


调用 shutil.move(source，destination)， 将 路 径 source 处 的 文件 夹 移动 到 路 径 
destination， 并 返回 新 位 置 的 绝对 路 径 的 字符 串 。 

如 果 destination 指向 一 个 文件 夹 , 那么 source 文件 将 移动 到 destination 中 , 并 保 
持原 来 的 文件 名 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import shutil 
>>> shutil.move('C:\\bacon.txt', 'C:\\eggs') 
'C:\\eggs\\bacon.txt' 


假定 在 C:\ 目 录 中 已 存在 一 个 名 为 eggs 的 文件 来， 调用 shutil.move() 方 法 就 是 将 
C:\bacon.txt 移动 到 文件 夹 C:\eggs 中 。 

如 果 在 C:\eggs 中 已 经 存在 一 个 文件 bacon.txt, 那么 它 就 会 被 覆盖 。 因 为 用 这 种 方式 很 容易 
不 小 心 覆 盖 文 件 ， 所 以 在 使 用 move ( ) 时 应 该 注意 。 

destination 路 径 也 可 以 指定 一 个 文件 名 。 在 下 面 的 例子 中 ，source 文件 被 移动 并 重 命 名 : 


>>> shutil.move('C:\\bacon.txt', 'C:\\eggs\\new bacon.txt') 
'C:\\eggs\\new bacon.txt' 


这 一 行 是 说 将 C:\bacon.txt 移动 到 文件 夹 C:\eggs， 完 成 之 后 ， 将 bacon.txt 文件 重 命名 为 


new_ bacon.txt。 
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前 面 两 个 例子 都 假设 在 C:\ 目 录 下 有 一 个 文件 夹 eggs。 但 是 如 果 没 有 eggs 文件 夹 ， 那 么 
move ( ) 就 会 将 bacon.txt 重 命 名 ， 变 成 名 为 eggs 的 文件 : 


>>> shutil.move('C:\\bacon.txt', 'C:\\eggs') 
'C:\\eggs’' 


这 里 ，move() 在 C:\ 目 录 下 找 不 到 名 为 eggs 的 文件 夹 ， 因 此 假定 destination 指 的 是 一 
个 文件 ， 而 不 是 文件 夹 。bacon.txt 文本 文件 会 被 重 命名 为 eggs (没有 .txt 文件 扩展 名 的 文本 文 
件 )， 但 这 可 能 不 是 你 所 希望 的 。 这 可 能 是 程序 中 很 难 发 现 的 bug， 因 为 move( ) 调 用 会 自动 地 
做 一 些 事情 ， 但 和 你 所 期 望 的 完全 不 同 。 这 也 是 使 用 move () 要 小 心 的 另 一 个 理由 。 

最 后 ， 构 成 目的 地 的 各 层级 目录 必须 已 经 存在 ， 和 否则 Python 会 抛 出 异常 。 在 交互 式 环境 中 
输入 以 下 代码 : 


>>> shutil.move('spam.txt', 'c:\\does not exist\\eggs\\ham’') 
Traceback (most recent call last): 
--SNip-- 
FileNotFoundError: [Errno 2] No such file or directory: 'c:\\does not exist\\ 
eggs\\ham’ 


Python 在 does_not exist 目录 中 寻找 eggs 和 ham。 它 没有 找到 这 个 不 存在 的 目录 ， 因 此 不 
能 将 spam.txt 移动 到 指定 的 路 径 。 


10.1.3 ”永久 删除 文件 和 文件 夹 


利用 os 模块 中 的 函数 ， 可 以 删除 一 个 文件 或 一 个 空 文件 夹 。 利 用 shutil 模块 ， 可 以 删 
除 一 个 文件 夹 及 其 所 有 的 内 容 。 
口 调用 os.unlink(path) 将 删除 path 处 的 文件 。 
口 调用 os.rmdir(path) 将 删除 path 处 的 文件 夹 。 该 文件 夹 必 须 为 空 ， 其 中 不 能 有 任何 
文件 和 文件 夹 。 
口 调用 shutil.rmtree(path) 将 删除 path 处 的 文件 夹 ， 它 包含 的 所 有 文件 和 文件 夹 都 
会 被 删除 。 
在 程序 中 使 用 这 些 消 数 时 要 小 心 。 可 以 在 第 一 次 运行 程序 时 注释 掉 这 些 调用 ， 并 且 加 上 
print() 调 用 ， 显 示 会 被 删除 的 文件 。 这 样 做 是 一 个 好 方法 。 下 面 有 一 个 Python 程序 ， 本 来 打算 
删除 具有 .txt 扩展 名 的 文件 ， 但 有 一 处 录入 错误 (用 粗 体 突 出 显示 )， 结 果 导 致 它 删 除了 .rxt 文件 : 


import 0S 

from pathlib import Path 

for filename in Path.home().glob('*.rxt'): 
os.unlink(filename) 


如 果 你 有 某 些 文件 以 .rxt 结尾 ， 它 们 就 会 被 永久 地 删除 。 作 为 替代 ， 你 应 该 先 运 行 像 这 样 
的 程序 : 

import os 

from pathlib import Path 

for filename in Path.home().glob('*.rxt'): 


#0S .unlink(filename ) 
print(filename) 
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现在 os.unlink() 调 用 被 注释 掉 ， 因 此 Python 会 忽略 它 。 作 为 替代 ， 输 出 将 被 删除 的 文件 
名 。 先 运行 这 个 版 本 的 程序 ， 你 就 会 知道 ， 你 不 小 心 告 诉 程序 要 删除 .rxt 文件 ， 而 不 是 .txt 文件 。 

在 确定 程序 按照 你 的 意图 工作 后 ,删除 print (filename) 代 码 行 ,取消 os.unlink (filename) 
代码 行 的 注释 。 然 后 再 次 运行 该 程序 ， 实 际 删除 这 些 文件 。 


10.1.4 用 send2trash 模块 安全 地 删除 


因为 Python 内 置 的 shutil.rmtree() 函 数 将 不 可 恢复 地 删除 文件 和 文件 夹 ， 所 以 用 起 来 
可 能 有 危险。 删除 文件 和 文件 夹 更 好 的 方法 是 使 用 第 三 方 的 send2trash 模块 。 你 可 以 在 命令 
行 窗口 中 运行 pip install send2trash 来 安装 该 模块 (参见 附录 A， 其 中 更 详细 地 解释 了 
如 何 安装 第 三 方 模块 )。 

利用 send2trash 比 用 Python 常规 的 删除 函数 要 安全 得 多 ， 因 为 它 会 将 文件 夹 和 文件 发 
送 到 计算 机 的 回收 站 ， 而 不 是 永久 删除 它们 。 如 果 因 程序 bug 而 用 send2trash 删除 了 某 些 你 
不 想 删除 的 东西 ， 那 么 稍 后 可 以 从 回收 站 恢复 。 

安装 send2trash 后 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import send2trash 

>>> baconFile = open('bacon.txt', 'a') # Ccreates the file 
>>> baconFile.write('Bacon is not a vegetable.') 

25 

>>> baconFile.closel() 

>>> send2trash.send2trash('bacon.txt') 


一 般 来 说 , 总 是 应 该 使 用 send2trash.send2trash( ) 函数 来 删除 文件 和 文件 夹 。 虽然 它 
将 文件 发 送 到 回收 站 ， 让 你 稍 后 能 够 恢复 它们 ， 但 是 这 不 像 永 久 删 除 文 件 ， 它 不 会 释放 磁盘 空 
间 。 如 果 你 希望 程序 释放 磁盘 空间 ， 就 要 用 os 和 shutil 来 删除 文件 和 文件 夹 。 请 注意 ， 
send2trash( ) 函 数 只 能 将 文件 发 送 到 回收 站 ， 不 能 从 中 恢复 文件 。 


10.2 人 遍历 目录 树 


假定 你 希望 对 某 个 文件 来 中 的 所 有 文件 进行 重 命名 ， 包括 该 文件 夹 中 所 有 子 文件 夹 中 的 所 
有 文件 。 也 就 是 说 ， 你 希望 遍历 目录 树 ， 并 处 理 遇 到 的 每 个 文件 。 写 程序 完成 这 件 事 可 能 需要 
一 些 技 巧 ， 好 在 Python 提供 了 一 个 函数 可 以 替 你 处 理 这 个 过 程 。 

请 看 C:\delicious 文件 夹 及 其 内 容 ， 如 图 10-1 所 示 。 

这 里 有 一 个 示例 程序 ， 针 对 图 10-1 所 示 的 目录 树 ， 使 用 了 0s .walk() 函 数 : 

import os 


for folderName, subfolders, filenames in os.walk('C:\\delicious'): 
print('The current folder is '+ folderName) 


for subfolder in subfolders: 
prinz('SUBFOLDER OF ‘+ folderName + ': '+ Subfolder) 


for filename in filenames: 
print('FILE INSIDE ‘+ folderName + ': '+ filename) 


print("'') 
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Pig cs 
| ¢ 过 delicious 
人 渤 cofs 


cofnames.fxf 
zophie.ipg 

和 本 waljnuf 

| py waffles 


可 ~ butter.txt 


| spam.txt 
图 10-1 一 个 示例 文件 夹 ， 包 含 3 个 文件 夹 和 4 个 文件 


0S .Walk( ) 函数 被 传 入 一 个 字符 串 值 ， 即 一 个 文件 夹 的 路 径 。 你 可 以 在 一 个 for 循环 语句 中 
使 用 os .walk() 函数 遍历 目录 树 ， 就 像 使 用 range() 函数 遍历 某 个 范围 的 数字 一 样 。 不 像 
range()，os.walk( ) 在 循环 的 每 次 迭代 中 返回 以 下 3 个 值 。 

口 当前 文件 夹 名称 的 字符 串 。 410 

口 当前 文件 夹 中 子 文件 夹 的 字符 串 的 列表 。 

口 当前 文件 夹 中 文件 的 字符 串 的 列表 。 

所 谓 当 前 文件 夹 ,是 指 for 循环 时 迭代 的 文件 夹 ,程序 的 当前 工作 目录 不 会 因为 0s .walk() 
而 改变 。 

就 像 你 可 以 在 代码 for i in range(10) :中 选择 变量 名 称 i 一样 ， 你 也 可 以 选择 前 面 列 
出 来 的 3 个 变量 名 称 。 我 通常 使 用 foldername、subfolder 和 filename 来 表示 它们 。 

运行 该 程序 ， 它 的 输出 结果 如 下 : 


The current folder is C:\delicious 
SUBFOLDER OF C:\delicious: cats 
SUBFOLDER OF C:\delicious: walnut 
FILE INSIDE C:\delicious: Spam.txt 


The current folder is C:\delicious\cats 
FILE INSIDE C:\delicious\cats: catnames .txt 
FILE INSIDE C:\delicious\cats: zophie.jpg 


The current folder is C:\delicious\walnut 
SUBFOLDER OF C:\delicious\walnut: waffles 


The current folder is C:\delicious\walnut\waffles 
FILE INSIDE C:\delicious\walnut\waffles: butter .txt . 


因为 os.walk () 返 回 字符 串 的 列表 ， 并 且 将 其 保存 在 subfolder 和 filename 变量 中 ， 
所 以 你 可 以 在 它们 目 己 的 for 循环 中 使 用 这 些 列 表 。 用 你 自己 编写 的 代码 , 取代 print ( ) 函 数 
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调用 (或 者 如 果 不 需 要 ， 就 删除 for 循环 )。 


10.3 ”用 zipfile 模块 压缩 文件 


你 可 能 熟悉 ZIP 文件 ( 带 有 .zip 文件 扩展 名 )， 它 可 以 包含 许多 其 他 文件 的 压缩 内 容 。 压 缩 
一 个 文件 会 减少 它 的 大 小 , 这 在 因特网 上 传输 时 很 有 用 。 因 为 一 个 ZIP 
文件 可 以 包含 多 个 文件 和 子 文件 夹 ， 所 以 使 用 它 是 一 种 很 方便 的 方式 。 gg cor 
将 多 个 文件 打包 成 一 个 文件 ， 打 包 后 的 文件 叫 作 “ 归 档 文件 ”可 以 用 | ，. 
作 电 子 邮件 的 附件 或 其 他 用 途 。 cotnomes.bt 
利用 zipfile 模块 中 的 函数 , Python 程序 可 以 创建 和 打开 (或 [ 


解压 ) ZIP 文件 。 假 定 你 有 一 个 名 为 example.zip 的 ZIP 文件 ， 它 的 pmp 
内 容 如 图 10-2 所 示 。 go 
可 以 从 异步 社区 本 书 的 对 应 页 面 下 载 这 个 ZIP 文件 ， 或 者 利用 
计算 机 上 已 有 的 一 个 ZIP 文件 ， 接 着 完成 下 面 的 操作 。 图 10-2 example.zip 的 内 容 


10.3.1 读 取 ZIP 文件 


要 读 取 ZIP 文件 的 内 容 ， 首 先 必 须 创 建 一 个 ZipFile 对 象 ( 请 注意 大 写 首 字 母 Z 和 下 )。 
ZipFile 对 象 在 概念 上 与 File 对 象 相似 , 你 在 第 8 章 中 曾经 看 到 open( ) 函 数 返 回 File 对 和 象 : 
它们 是 一 些 值 ， 程 序 通 过 它们 与 文件 打交道 。 

要 创建 一 个 ZipFile 对 象 ， 就 要 调用 zipfile.ZzipFile() 函 数 ， 问 它 传 入 一 个 字符 串 ， 
表示 ZIP 文件 的 文件 名 。 请 注意 ，zipfile 是 Python 模块 的 名 称 ，ZipFile() 是 函数 的 名 称 。 

例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import zipfile，0s 


>>> from pathlib import Path 
>>> p = Path.home() 
>>> examplezip = zipfile.ZipFile(p / ‘example.zip') 
>>> exampleZip.namelist() 
['spam.txt', 'cats/', 'cats/catnames.txt', 'cats/zophie.]jpg'] 
>>> spamInfo = exampleZip.getinfo('spam.txt') 
>>> SpamInfo .file size 
13908 
>>> SpamInfo .compress_Size 
3828 
© >>> f'Compressed file is {round(spamInfo.file size / SpamInfo 
.Compress Size, 2)}x smaller!' 


'Compressed file is 3.63x smaller!' 
>>> exampleZip.close!() 


ZipFile 对 象 有 一 个 namelist() 方 法 , 它 返 回 ZIP 文件 中 包含 的 所 有 文件 和 文件 夹 的 字 
符 串 的 列表 。 这 些 字 符 串 可 以 传递 给 ZipFile 对 象 的 getinfo() 方 法 ， 返 回 一 个 关于 特定 文 
件 的 ZipInfo 对 象 。ZipInfo 对 象 有 自己 的 属性 ， 如 表示 字 节 数 的 file_size 和 
compress_size， 它 们 分 别 表示 原来 文件 大 小 和 压缩 后 文件 大 小 。ZipFile 对 象 表示 整个 归 
档 文 件 ， 而 ZipInfo 对 象 则 保存 该 归档 文件 中 每 个 文件 的 有 用 信息 。 
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@ 处 的 命令 计算 出 example.zip 压缩 的 效率 ， 用 压缩 后 文件 的 大 小 除 以 原来 文件 的 大 小 ， 并 
输出 这 一 信息 。 


10.3.2 ”从 ZIP 文件 中 解压 缩 


ZipFile 对 象 的 extractal1l() 方 法 从 ZIP 文件 中 解压 缩 所 有 文件 和 文件 夹 , 并 将 其 放 到 
当前 工作 目录 中 : 


>>> import zipfile, os 

>>> from pathlib import Path 

>>> p = Path.home() 

>>> examplezip = zipfile.ZipFile(p / ‘example.zip') 
© >>> exampleZip.extractalll() 

>>> exampleZip.closel() 


运行 这 段 代 码 后 ，example.zip 的 内 容 将 被 解压 缩 到 C:\。 或 者 你 可 以 向 extractall ( ) 传 递 一 
个 文件 夹 名 称 , 它 将 文件 解压 缩 到 那个 文件 夹 ， 而 不 是 当前 工作 目录 。 如 果 传 递 给 extractall() 
方法 的 文件 夹 不 存在 , 那么 该 文件 夹 会 被 创建 。 例 如 , 如 果 你 用 exampleZip.extractall('C:\\ 
delicious' ) 取 代 O@ 处 ， 那 么 代码 就 会 从 example.zip 中 解压 缩 文件 ， 并 放 到 新 创建 的 C:\delicious 
文件 夹 中 。 

ZipFile 对 象 的 extract() 方 法 从 ZIP 文件 中 解压 缩 单个 文件 。 继 续 演 示 交 互 式 环境 中 
的 例子 : 

>>> exampleZip.extract('spam.txt') 

'C:\\spam.txt' 

>>> exampleZip.extract('spam.txt', 'C:\\some\\new\\folders') 


'C:\\some\\new\\folders\\spam.txt' 
>>> exampleZip.close() 


传递 给 extract () 的 字符 串 ， 必 须 匹 配 namelist() 返 回 的 字符 串 列表 中 的 一 个 。 或 者 ， 
你 可 以 同 extract () 传 递 第 二 个 参数 ， 将 文件 解压 缩 到 指定 的 文件 夹 ， 而 不 是 当前 工作 目录 。 
如 果 第 二 个 参数 指定 的 文件 夹 不 存在 ，Python 就 会 创建 它 。extract () 的 返回 值 是 被 压缩 后 文 
件 的 绝对 路 径 。 


10.3.3 ”创建 和 添加 到 ZIP 文件 


要 创建 你 自己 的 压缩 ZIP 文件 ， 必 须 以 “ 写 模 式 ” 打 开 ZipFile 对 象 ， 即 传 入 'w' 作 为 第 二 
个 参数 (这 类 似 于 向 open ( ) 函数 传 入 'w' ， 以 写 模式 打开 一 个 文本 文件 )。 

如 果 向 ZipFile 对 象 的 write() 方 法 传 入 一 个 路 径 ， 那 么 Python 就 会 压缩 该 路 径 所 指 的 
文件 ， 并 将 它 添加 到 ZIP 文件 中 。write() 方 法 的 第 一 个 参数 是 一 个 字符 串 ， 代 表 要 添加 的 
文件 名 。 第 二 个 参数 是 “压缩 类 型 ”参数 ， 它 告诉 计算 机 使 用 怎样 的 算法 来 压缩 文件 。 可 以 
总 是 将 这 个 值 设 置 为 zipfile.ZIP_DEFLATED (这 指定 了 deflate 压缩 算法 ， 它 对 各 种 类 
型 的 数据 都 很 有 效 )。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import zipfile 

>>> newZip = zipfile.ZipFile('new.zip' ，'W') 

>>> newZip.write('spam.txt', compress type=zipfile.ZIP DEFLATED) 
>>> newZip.close() 
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这 段 代 码 将 创建 一 个 新 的 ZIP 文件 ， 名 为 new.zip， 它 包含 spam.txt 压缩 后 的 内 容 。 

要 记 住 ， 就 像 写 入 文件 一 样 ， 写 模式 将 擦 除 ZIP 文件 中 所 有 原 有 的 内 容 。 如 果 只 是 希望 将 
文件 添加 到 原 有 的 ZIP 文件 中 ， 就 要 向 zipfile.ZipFile() 传 入 'a' 作 为 第 二 个 参数 ， 以 添 
加 模式 打开 ZIP 文件 。 


10.4 项目: 将 带 有 美国 风格 日 期 的 文件 重 命名 为 欧洲 风格 日 期 


假定 你 的 老板 用 电子 邮件 发 给 你 上 千 个 文件 ， 文 件 名 包含 美国 风格 的 日 期 
(MM-DD-YYYY)， 需 要 将 它们 重 命名 为 欧洲 风格 的 日 期 (DD-MM-YYYY)。 手 动 完成 这 个 葡 
琐 的 任务 可 能 需要 几 天 时 间 。 让 我 们 写 一 个 程序 来 完成 它 。 

程序 需要 完成 以 下 任务 。 

1. 检查 当前 工作 目录 的 所 有 文件 名 ， 寻 找 美国 风格 的 日 期 。 

2. 如 果 找 到 ， 将 该 文件 重 命名 ， 交 换 月 份 和 日 期 的 位 置 ， 使 之 成 为 欧洲 风格 的 日 期 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 创建 一 个 正则 表达 式 ， 可 以 识别 美国 风格 日 期 的 文本 模式 。 

2. 调用 os.1Listdir()， 找 出 工作 目录 中 的 所 有 文件 。 

3. 循环 遍历 每 个 文件 名 ， 利 用 该 正则 表达 式 检查 它 是 否 包含 日 期 。 

4， 如 果 它 包含 日 期 ， 用 shutil.move() 对 该 文件 重 命名 。 

对 于 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 将 代码 保存 为 renameDates.py。 


第 1 步 : 为 美国 风格 的 日 期 创建 一 个 正则 表达 式 


程序 的 第 一 部 分 需要 导入 必要 的 模块 ， 并 创建 一 个 正则 表达 式 ， 它 能 识别 MM-DD-YYYY 
格式 的 日 期 -TODO 注释 将 提醒 你 这 个 程序 还 要 写 什 么 。 将 它们 作为 TODO, 束 很 容易 利用 IDLE 
的 Ctrl-F 快捷 键 查 找 功能 来 找到 它们 。 让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# renameDates.py - Renames filenames with American MM-DD-YYYY date format 
# to European DD-MM-YYYY. 


©@ import shutil, os, re 


# Create a regex that matches files with the American date format. 
@datePattern = re.compile(r"""“(.*?) # all text before the date 


((0|1)?\d)- # one or two digits for the month 
((0111213)?\d) - # one or two digits for the day 
((19|20)\d\d) # four digits for the year 

(.*?)$ # all text after the date 


""", re.VERBOSE®) 
# TODO: Loop over the files in the working directory. 
# TODO: Skip files without a date. 
# TODO: Get the different parts of the filename. 


# TODO: Form the European-style filename. 
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# TODO: Get the full, absolute file paths. 


# TODO: Rename the files. 


通过 本 章 ， 你 知道 shutil.move() 函 数 可 以 用 于 文件 重 命名 : 它 的 参数 是 要 重 命名 的 文 
件 名 以 及 新 的 文件 名 。 因 为 这 个 函数 存在 于 shutil 模块 中 ， 所 以 你 必须 导入 该 模块 @，。 

在 为 这 些 文件 重 命名 之 前 , 需要 确定 哪些 文件 要 重 命名 。 文件 名 如 果 包 含 spam4-4-1984.txt 
和 01-03-2014eggs.zip 这 样 的 日 期 ， 就 应 该 重 命名 ; 而 不 包含 日 期 的 文件 名 应 该 被 忽略 ， 如 
jittlebrother.epub 。 

可 以 用 正则 表达 式 来 识别 该 模式 。 在 开始 导入 re 模块 后 ， 调 用 re.compile() 创 建 一 个 
Regex 对 象 @@。 传 入 re .VERBOSE 作为 第 二 个 参数 人 @@， 这 将 在 正则 表达 式 字 符 串 中 允许 空白 字 
符 和 注释 ， 让 它 更 具 可 读 性 。 

正则 表达 式 字 符 串 以 ^(.*?) 开始 ， 匹 配 文 件 名 开始 处 、 日 期 出 现 之 前 的 任何 文本 。 
((0|1)?\d) 分 组 匹配 月 份 。 第 一 个 数字 可 以 是 0 或 1， 所 以 正则 表达 式 会 匹配 12， 作 为 十 二 
月 份 ; 也 会 匹配 02， 作 为 二 月 份 。 这 个 数字 是 可 选 的 ， 所 以 四 月 份 可 以 是 04 或 4。 日 期 的 分 组 
是 ((0|1|2|3)?\d)， 它 遵循 类 似 的 逻辑 。3、03 和 31 是 有 效 的 日 期 数字 (是 的 ， 这 个 正则 表 
达 式 会 接受 一 些 无 效 的 日 期 如 4-31-2014、2-29-2013 和 0-15-2014。 日 期 有 许多 特例 ， 
很 容易 被 遗漏 。 为 了 简单 ， 这 个 程序 中 的 正则 表达 式 做 得 已 经 足够 好 了 )。 

虽然 1885 是 一 个 有 效 的 年 份 ,但 你 可 能 只 想 寻 找 20 世纪 和 21 世纪 的 年 份 。((19120) \d\d) 
防止 了 程序 不 小 心 匹配 非 日 期 的 文件 名 ， 它 们 和 日 期 格式 类 似 ， 如 10-10-1000.txt。 

正则 表达 式 的 (.*?)$ 部 分 将 匹配 日 期 之 后 的 任何 文本 。 


第 2 步 : 识别 文件 名 中 的 日 期 部 分 


接 下 来 ， 程 序 将 循环 遍历 os.1Listdir() 返 回 的 文件 名 字符 串 列表 ， 以 用 这 个 正则 表达 式 
匹配 它们 。 文 件 名 不 包含 日 期 的 文件 将 被 忽略 。 如 果 文 件 名 包含 日 期 ， 那 么 匹配 的 文本 将 保存 
在 几 个 变量 中 。 用 下 面 的 代码 代替 程序 中 的 前 3 个 T0D0: 


#! python3 
# renameDates.py - Renames filenames with American MM-DD-YYYY date format 
# to European DD-MM-YYYY. 


- -SNip-- 


# Loop over the files in the working directory. 
for amerFilename in os.listdir('. 
mo = datePattern. search(amerFilename) 


# Skip files without a date. 
@ if mo == None: 
©@ continue 


©# Get the different parts of the filename. 
beforePart = mo.group(1) 
monthPart = mo.group(2) 
dayPart = mo.group(4) 
yearPart = mo.group(6) 
afterPart = mo.group(8) 


-~-SN1p-- 
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如 果 search() 方 法 返回 的 Match 对 象 是 None@， 那 么 amerFilename 中 的 文件 名 不 匹 
配 该 正则 表达 式 。continue 语句 @ 将 跳 过 循环 剩 下 的 部 分 ， 转 向 下 一 个 文件 名 。 

否则 ， 该 正则 表达 式 分 组 匹配 的 不 同 字 符 串 将 保存 在 名 为 beforePart、monthPart、 
dayPart、yearPart 和 afterPart 的 变量 中 @。 这 些 变 量 中 的 字符 串 将 在 下 一 步 中 使 用 ， 用 
于 构成 欧洲 风格 的 文件 名 。 

为 了 让 分 组 编号 直观 ， 请 尝试 从 头 阅 读 该 正则 表达 式 ， 每 遇 到 一 个 左 括号 就 计数 加 一 。 不 要 考 
虑 代码 ， 写 下 该 正则 表达 式 的 框架 即 可 。 这 有 助 于 使 分 组 变 得 直观 ， 例 如 : 


datePattern = re.compile(r"""^(1) # all text before the date 
(2 (3) ) # one or two digits for the month 
(4 (5) ) # one or two digits for the day 
(6 (7) ) # four digits for the year 
$ # all text after the date 


", re.VERBOSE) 


这 里 ， 编 号 1 至 8 代表 了 该 正则 表达 式 中 的 分 组 。 写 出 该 正则 表达 式 的 框架 ， 其 中 只 包含 括号 
和 分 组 编号 ， 这 会 让 你 更 清楚 地 理解 所 写 的 正则 表达 式 。 完 全 理解 后 再 接着 看 程序 中 剩 下 的 部 分 。 


第 3 步 : 构成 新 文件 名 ， 并 对 文件 重 命名 


连接 前 一 步 生 成 的 变量 中 的 字符 串 ， 得 到 欧洲 风格 的 日 期 : 日 期 在 月 份 之 前 。 用 下 面 的 代 
码 代 替 程序 中 的 最 后 3 个 TODO: 


#! python3 
# renameDates.Dy - Renames filenames with American MM-DD-YYYY date format 
# to European DD-NMM-YYYY. 


--SNip-- 
# Form the European-style filename. 
© euroFilename = beforePart + dayPart + '-' + monthPart + '-' + yearPart + afterPart 


# Get the full, absolute file paths. 

absWorkingDir = os.path.abspath('.') 

amerFilename = os.path.ijoin(absWorkingDir, amerFilename) 
euroFilename = os.path.ijoin(absWorkingDir, euroFilename) 


# Rename the files. 


@ print(f'Renaming "{amerFilename}" to "{euroFilename}"...') 
© #shutil.move(amerFilename, euroFilename) # uncomment after testing 


将 连接 的 字符 串 保 存在 名 为 euroFilename 的 变量 中 O@。 然 后 将 amerFilename 中 原来 的 文 
件 名 和 新 的 euroFilename 变量 传递 给 shutil.move() 函 数 ， 并 将 该 文件 重合 名 @ 

这 个 程序 将 shutil.move() 注 释 掉 ， 以 将 被 重 命名 的 文件 名 四 的 输出 进行 奉 代 。 先 像 这 
样 运行 程序 ， pd eid at 然后 取消 shutil.move( ) 调 用 的 注释 ， 再 次 
运行 该 程序 来 将 这 些 文件 重 命名 


第 4 步 : 类 似 程序 的 想法 


有 很 多 其 他 的 理由 也 会 导致 你 需要 对 大 量 的 文件 重 命名 。 
口 为 文件 名 添加 前 级 ， 如 添加 spam 、 将 eggs.txt 重 命名 为 spam eggs.txt。 


10.5 项 目 : 将 一 个 文件 夹 备份 到 一 个 ZIP 文件 193 


口 将 欧洲 风格 日 期 的 文件 名 重 命名 为 美国 风格 日 期 的 文件 名 。 
口 删除 文件 名 中 的 0， 如 spam0042.txt。 


10.5 项 目 : 将 一 个 文件 夹 备 份 到 一 个 ZIP 文件 


假定 你 正在 做 一 个 项 目 , 它 的 文件 保存 在 C:\AlsPythonBook 文件 夹 中 。 你 担心 项 目 会 丢失 ， 
因此 希望 为 整个 文件 夹 创建 一 个 ZIP 文件 以 作为 “快照 >。 你 希望 保存 不 同 的 版 本 ， 希 望 ZIP 
文件 的 文件 名 每 次 创建 时 都 有 所 变化 ， 如 AlsPythonBook 1.zip 、AlsPythonBook 2.zip、 
AlsPythonBook 3.zip 等 。 你 可 以 手动 完成 ， 但 这 有 点 繁琐 ， 而且 可 能 会 不 小 心 弄 错 ZIP 文件 的 
编号 。 运 行 一 个 程序 来 完成 这 个 繁琐 的 任务 会 简单 得 多 。 

针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 backupToZip.py。 


第 1 步 : 弄 清 楚 ZIP 文件 的 名 称 


这 个 程序 的 代码 将 放 在 一 个 名 为 backupToZip() 的 函数 中 。 这 样 就 更 容易 将 该 函数 复制 
粘贴 到 其 他 需要 这 个 功能 的 Python 程序 中 。 这 个 程序 的 末尾 会 调用 这 个 函数 进行 备份 。 让 你 的 
程序 看 起 来 像 这 样 : 


#! python3 
# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 


© import zipfile, oOos 


def backupToZip(folder): 
# Back up the entire contents of "folder" into a ZIP file. 


folder = 0o0s.path.abspath(folder) # make sure folder is absolute 


# Figure out the filename this code should use based on 
# what files already exist. 
@ number = 1 
© while True: 
zipFilename = os.path.basename(folder) + ' ' + str(number) + '.zip' 
if not os.path.exists(zipFilename): 
break 
number = number + 1 


@ # TODO: Create the ZIP file. 


# TODO: Walk the entire folder tree and compress the files in each folder. 
print('Done.') 


backupToZip('C:\\delicious') 

先 完成 基本 任务 : 添加 ## 行 ， 摘 述 该 程序 做 什么 ， 并 导入 zipfile 和 os 模块 @。 

定义 backupToZip() 函 数 , 它 只 接收 一 个 参数 , 即 folder。 这 个 参数 是 一 个 字符 串 路 径 ， 
指 癌 需 要 备份 的 文件 夹 。 该 函数 将 决定 它 创 建 的 ZIP 文件 使 用 什么 文件 名 ， 然 后 创建 该 文件 ， 
遍历 folder 文件 夹 ， 并 将 每 个 子 文件 夹 和 文件 添加 到 ZIP 文件 中 。 在 源 代码 中 为 这 些 步骤 写 
下 T0D0 注释 ， 提 醒 你 稍 后 来 完成 @。 
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第 一 部 分 是 命名 这 个 ZIP 文件 ， 使 用 folder 的 绝对 路 径 的 基本 名 称 。 如 果 要 备份 的 文件 
夹 是 C:\delicious， 那 么 ZIP 文件 的 名 称 就 应 该 是 delicious_N.zip， 第 一 次 运行 该 程序 时 N=1， 
第 二 次 运行 时 NE2， 以 此 类 推 。 

检查 delicious 1.zip 是 否 存在 ， 然 后 检查 delicious_2.zip 是 否 存 在 ， 继 续 下 去 ， 可 以 确定 N 
应 该 是 什么 。 用 一 个 名 为 number 的 变量 表示 N@， 在 一 个 循环 内 不 断 增加 它 ， 并 调用 
os .path.exists() 来 检查 该 文件 是 否 存在 人 @。 第 一 个 不 存在 的 文件 名 将 导致 循环 break， 从 
而 它 就 发 现 了 新 ZIP 文件 的 文件 名 。 


第 2 步 : 创建 新 ZIP 文件 
接 下 来 让 我 们 创建 ZIP 文件 。 让 你 的 程序 看 起 来 像 这 样 : 


#! python3 
# backupToZip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 


--Snip-- 
While True: 
zipFilename = 0S.path.basename(folder) + ' _' + str(number) + ' .zip' 
if not os.path.exists(zipFilename): 
break 
number = number + 1 


# Create the ZIP file. 
print(f'Creating {zipFilename}..。) 
© backupZip = zipfile.ZipFile(zipFilename, 有声， 


# TODO: Walk the entire folder tree and compress the files in each folder. 
print('Done.”') 


backupToZip('C:\\delicious') 


既然 新 ZIP 文件 的 文件 名 保存 在 zipFilename 变量 中 ， 你 就 可 以 调用 zipfile.ZipFile() 
实际 创建 这 个 ZIP 文件 @ 了 。 确 保 传 入 'w' 作 为 第 二 个 参数 ， 这 样 ZIP 文件 就 会 以 写 模式 打开 。 


第 3 步 : 遍历 目录 树 并 添加 到 ZIP 文件 


现在 需要 使 用 os .walk() 函 数列 出 文件 夹 以 及 子 文件 夹 中 的 每 个 文件 。 让 你 的 程序 看 起 来 


#! python3 
# backupTozip.py - Copies an entire folder and its contents into 
# a ZIP file whose filename increments. 


- -SNip-- 


# Walk the entire folder tree and compress the files in each folder. 
@ for foldername, subfolders, filenames in os.walk(folder): 
print(f'Adding files in {foldername}...') 
# Add the current folder to the ZIP file. 
@ backupzip.write(foldername) 


# Add all the files in this folder to the ZIP file. 
© for filename in filenames: 
newBase = 0S.path.basename(folder) + 


if filename. 9 and filename. es 2ip' ): 
continu # don't back up the backup ZIP file 
backupZip. a oy path. eee eyed eer 
backupzip.close() 
print('Done.') 


backupToZip('C:\\delicious') 


可 以 在 for 循环 中 使 用 os.walk()@, 在 每 次 迭代 中 , 它 将 返回 这 次 迭代 当前 的 文件 夹 名 
称 、 这 个 文件 夹 中 的 子 文件 夹 ， 以 及 这 个 文件 夹 中 的 文件 名 。 

在 这 个 for 循环 中 ， 该 文件 夹 被 添加 到 ZIP 文件 @@。 藤 套 的 for 循环 将 遍历 filenames 
列表 中 的 每 个 文件 @。 每 个 文件 都 被 添加 到 ZIP 文件 中 ， 以 前 生成 的 备份 ZIP 文件 除外 。 

如 果 运 行 该 程序 ， 它 产生 的 输出 结果 看 起 来 像 这 样 : 


Creating delicious 1.zip... 

Adding files in C:\delicious... 

Adding files in C:\delicious\cats... 

Adding files in C:\delicious\waffles... 

Adding files in C:\delicious\walnut... 

Adding files in C:\delicious\walnut\waffles... 
Done. 


第 二 次 运行 它 时 ， 它 将 C:\delicious 中 的 所 有 文件 放 进 一 个 ZIP 文件 ， 并 将 其 命名 为 
delicious 2.zip， 以 此 类 推 。 


第 4 步 : 类 似 程序 的 想法 


你 可 以 在 其 他 程序 中 遍历 一 个 目录 树 ， 并 将 文件 添加 到 压缩 的 ZIP 归档 文件 中 。 例 如 ， 你 
可 以 编程 做 下 面 的 事情 。 

D 过 有 历 一 个 目录 树 ， 将 特定 扩展 名 的 文件 归档 ， 如 .txt 或 .py， 并 排除 其 他 文件 。 

口 遍历 一 个 目录 树 ， 将 .txt 和 .py 文件 以 外 的 其 他 文件 归档 。 

DO 在 一 个 目录 树 中 查找 文件 夹 ， 该 文件 夹 包含 的 文件 数 最 多 ， 或 者 使 用 的 磁盘 空间 最 大 。 


10.6 ”小结 


即使 你 是 一 个 有 经 验 的 计算 机 用 户 ， 可 能 也 会 用 鼠标 和 键盘 手动 处 理 文件 。 现 在 的 文件 浏 
览 器 使 得 处 理 少 量 文件 的 工作 很 容易 。 但 有 时 候 ， 如 果 用 计算 机 自 带 的 文件 浏览 器 ， 那 么 你 想 
完成 任务 可 能 要 花 几 小 时 。 

os 和 shutil 模块 提供 了 一 些 函 数 来 进行 复制 、 移 动 、 重 命名 和 删除 文件 。 在 删除 文件 时 ， 
你 可 能 希望 使 用 send2trash 模块 将 文件 移动 到 回收 站 ， 而 不 是 永久 地 删除 它们 。 在 编程 处 理 文 
件 时 ， 最 好 是 先 注释 掉 实际 会 复制 、 移 动 、 重 命名 或 删除 文件 的 代码 ， 添 加 print() 调 用 ， 这 
样 你 就 可 以 运行 该 程序 ， 验 证 它 实 际会 做 什么 

通常 ， 你 不 仅 需 要 对 一 个 文件 夹 中 的 文件 执行 这 些 操作 ， 而 且 要 对 所 有 下 级 子 文件 夹 执行 
操作 。os .walk ( ) 函数 将 处 理 这 个 艰 昔 的 工作 ,遍历 文件 夹 ， 这 样 你 就 可 以 专注 于 了 解 程序 需 
和 要 对 其 中 的 文件 做 什么 。 
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zipfile 模块 提供 了 一 种 方法 : 用 Python 压缩 和 解压 ZIP 归档 文件 。 与 os 和 shutil 模块 
中 的 文件 处 理 函数 一 起 使 用 ，zipfile 模块 很 容易 将 硬盘 上 任意 位 置 的 一 些 文件 打包 。 和 许多 独 
立 的 文件 相 比 ， 这 些 ZIP 文件 更 容易 上 传 到 网 站 ， 或 作为 E-mail 附件 发 送 。 

本 书 前 面 几 章 提供 了 源 代 码 让 你 复制 。 但 如 果 你 编写 自己 的 程序 ， 可 能 在 第 一 次 编写 时 不 
会 完美 无 缺 。 下 一 章 将 聚焦 于 一 些 Python 模块 ， 它 们 可 以 帮助 你 分 析 和 调试 程序 ， 这 样 就 能 让 
程序 很 快 正确 运行 。 


10.7 ”习题 


.Shutil.copy() 和 shutil.copytree() 之 间 的 区 别 是 什么 ? 
. 什么 函数 用 于 文件 重 命名 ? 
.Send2trash 和 shutil 模块 中 的 删除 函数 之 间 的 区 别 是 什么 ? 
4. ZipFile 对 象 有 一 个 close() 方 法 ， 就 像 File 对 象 的 close() 方 法 。ZipFile 对 象 
的 什么 方法 等 价 于 File 对 象 的 open() 方 法 ? 


10.8 ”实践 项 目 
作为 实践 ， 编 程 完成 下 面 的 任务 。 


10.8.1 选择 性 复制 


编写 一 个 程序 ， 遍 历 一 个 目录 树 ， 查 找 特 定 扩展 名 的 文件 (如 .pdf 或 jpg)。 不 论 这 些 文件 
的 位 置 在 哪里 ， 将 它们 复制 到 一 个 新 的 文件 夹 中 。 


10.8.2 ”删除 不 需要 的 文件 


一 些 不 需要 的 、 巨 大 的 文件 或 文件 夹 占据 了 硬盘 的 空间 ， 这 并 不 少见 。 如 果 你 试图 释放 寺 
算 机 上 的 空间 ， 那 么 删除 不 想 要 的 巨大 文件 的 效果 最 好 。 但 首先 你 必须 找到 它们 。 

编写 一 个 程序 ， 遍 历 一 个 目录 树 ， 查 找 特 别 大 的 文件 或 文件 夹 ， 如 超过 100MB 的 文件 〈 回 
忆 一 下 ， 要 获得 文件 的 大 小 ， 可 以 使 用 os 模块 的 os.path.getsize())。 将 这 些 文 件 的 绝对 
路 径 输 出 到 屏幕 上 。 


10.8.3 ”消除 缺失 的 编号 


CG WY 


编写 一 个 程序 ， 在 一 个 文件 夹 中 找到 所 有 和 带 指定 前 级 的 文件 ， 如 spam001.txt，spam002.txt 
等 ， 并 定位 缺失 的 编号 (例如 存在 spam001.txt 和 spam003.txt， 但 不 存在 spam002.txt)。 让 该 程 
序 对 后 面 的 所 有 文件 重 命 名 ， 消 除 缺 失 的 编写 。 

作为 附加 的 挑战 ， 编 写 另 一 个 程序 ， 在 一 些 连续 编号 的 文件 中 衬 出 一 些 编号 ， 以 便 加 入 新 
的 文件 。 


调试 


既然 你 已 学 习 了 足够 的 内 容 , 可 以 编写 更 复杂 的 程序 , 那么 可 能 就 会 在 
程序 中 发 现 不 那么 简单 的 bug。 本 章 将 介绍 一 些 工具 和 技巧 ， 用 于 寻找 程序 
中 bug 的 根源 ， 帮 助 你 更 快 、 更 容易 地 修复 bug。 

程序 员 之 间 流 传 着 一 个 老 笑 话 :“ 编 码 占 了 编程 工作 量 的 90%， 调 试 占 
了 剩余 工作 量 的 90%。” 

计算 机 只 会 做 你 告诉 它 做 的 事情 , 它 不 会 读 懂 你 的 心思 , 做 你 想 要 让 它 
做 的 事情 。 即 使 是 专业 的 程序 员 也 一 直 在 制造 bug， 因 此 如 果 你 的 程序 有 问 
题 ， 不 必 感 到 肖 袁 。 

好 在 有 一 些 工具 和 技巧 可 以 确定 你 的 代码 在 做 什么 ， 以 及 哪儿 出 了 问题 。 首 先 ， 你 要 查看 日 志 
和 断言 ， 这 两 项 功能 可 以 帮助 你 尽早 发 现 bug。 一 般 来 说 ，bug 发 现 得 越 早 ， 就 越 容 易 修 复 。 

其 次 ， 你 要 学 习 使 用 调试 器 。 调 试 器 是 IDLE 的 一 项 功能 ， 它 可 以 一 次 执行 一 条 指令 ， 在 代码 
运行 时 ， 让 你 有 机 会 检查 变量 的 值 ， 并 追踪 程序 运行 时 值 的 变化 。 这 此 程序 全 吉 运 和 要 习 得 多 ， 但 
可 以 帮助 你 查看 程序 运行 时 其 中 实际 的 值 ,而 不 是 通过 源 代码 推测 值 可 能 是 什么 


11.1 抛 出 异常 考 


当 Python 试图 执行 无 效 代 码 时 ， 就 会 抛 出 异常 。 在 第 3 章 中 ， 你 已 学 会 视频 讲解- 
如 何 使 用 try 和 except 语句 来 处 理 Python 的 异常 ， 这 样 程序 就 可 以 从 你 预 
期 的 异常 中 恢复 。 你 也 可 以 在 代码 中 抛 出 自己 的 异常 。 抛 出 异常 相当 于 对 程 邓 说 :“ 停 止 
个 函数 中 的 代码 ， 将 程序 执行 转 到 except 语句 。” 

抛 出 卉 常 使 用 raise 语句 。 在 代码 中 ，raise 语句 包含 以 下 部 分 。 

口 raise 关键 字 。 

口 对 Exception() 函 数 的 调用 。 

D 传递 给 Exception() 函 数 的 字符 串 ， 包 含有 用 的 错误 信息 。 

例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> raise Exception('This is the error message.') 
Traceback (most recent call last): 
File "<pyshell#191>", line 1, in <module> 
raise Exception('This is the error message.') 
Exception: This is the error message. 


Ee 
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如 果 没 有 try 和 except 语句 来 覆盖 抛 出 异常 的 raise 语句 , 那么 该 程序 就 会 骨 演 , 并 显 
示 异 常 的 错误 信息 。 

通常 是 调用 该 函数 的 代码 知道 如 何 处 理 异常 ,而 不 是 该 函数 本 身 。 所 以 你 常常 会 看 到 raise 
语句 在 一 个 函数 中 ，try 和 except 语句 在 调用 该 函数 的 代码 中 。 例 如 ， 打 开 一 个 新 的 文件 编 
辑 器 窗口 ， 输 入 以 下 代码 ， 并 将 其 保存 为 boxPrint.py: 


def boxPrint(symbol, width, height): 
if len(Symbol) != 1: 
© raise Exception('Symbol must be a Single character string.') 
if width <= 2: 
© raise Exception('Width must be greater than 2.°') 
if height <= 2: 
© raise Exception('Height must be greater than 2.°') 


print(symbol * width) 
for i in range(height - 2): 

print(symbol + (' ' * (width - 2)) + Symbol) 
print(symbol * width) 


for sym, w, h in (('*', 4, 4), ('0', 20, 5), ('x', 1, 3), ('22', 3, 3)): 
teYys 
boxPrint(sym, w, h) 
@ except Exception as err: 
© print('An exception happened: ' + str(err)) 


可 以 在 https://autbor.com/boxprint 上 查看 该 程序 的 执行 情况 。 这 里 我 们 定义 了 一 个 
boxPrint() 函 数 ， 它 接收 一 个 字符 、 一 个 宽度 值 和 一 个 高 度 值 。 它 按照 指定 的 宽度 和 高 度 ， 
用 该 字符 创建 了 一 个 小 盒子 的 图 像 。 这 个 盒子 被 输出 到 屏幕 上 。 

假定 我 们 希望 该 字符 是 一 个 字符 ， 且 宽度 和 高 度 要 大 于 2。 我 们 添加 了 if 语句 ， 如 果 这 些 
条 件 没 有 满足 ， 就 抛 出 异常 。 稍 后 ， 当 我 们 用 不 同 的 参数 调用 boxPrint() 时 ，try…except 
语句 就 会 处 理 无 效 的 参数 。 

这 个 程序 使 用 了 except 语句 的 except Exception as err 形式 @。 如 果 boxPrint() 
返回 一 个 Exception 对 象 0@, 那么 这 条 except 语句 就 会 将 该 对 象 保存 在 名 为 err 的 变量 
中 。Exception 对 象 可 以 传递 给 str() 以 将 它 转换 为 一 个 字符 串 ， 从 而 得 到 对 用 户 友 好 的 错误 
信息 @ 。 运行 boxPrnt.py， 输出 结果 看 起 来 像 这 样 : 


要 .要 
3S 
: 


00000000000000000000 
An exception happened: Width must be greater than 2. 
An exception happened: Symbol must be a Single character string. 


使 用 try 和 except 语句 ， 你 可 以 更 优雅 地 处 理 错误 ， 而 不 是 让 整个 程序 月 尝 。 
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11.2 ”取得 回溯 字符 串 


如 果 Python 遇 到 错误 ， 它 就 会 生成 一 些 错误 信息 ， 称 为 “回溯 ”。 回 溯 包 含 了 错误 信息 、 
导致 该 错误 的 代码 行 号 ， 以 及 导致 该 错误 的 函数 调用 的 序列 。 这 个 序列 称 为 “调用 栈 ” 
在 Mu 中 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 程序 ， 并 将 其 保存 为 errorExample py: 


def Spam() : 
bacon() 


def bacon( ) : 
raise Exception('This is the error message.') 


spam() 


如 果 运 行 errorExample.py， 输 出 结果 看 起 来 像 这 样 : 


Traceback (most recent call last): 
File "errorExample.py", line 7, in <module> 
spam!() 
File "errorExample.py", line 2, in spam 
bacon() 
File "errorExample.py", line 5, in bacon 
raise Exception('This is the error message.') 
Exception: This is the error message. 


根据 回溯 ,可 以 看 到 该 错误 发 生 在 第 $ 行 , 在 bacon() 函 数 中 。 这 次 特定 的 bacon() 
调用 来 自 第 2 行 ， 在 spam() 函 数 中 ， 它 又 在 第 7 行 被 调用 。 在 可 能 从 多 个 位 置 调用 函数 
的 程序 中 ， 调 用 栈 能 帮助 你 确定 哪 次 调用 导致 了 错误 。 

只 要 抛 出 的 异常 没有 被 处 理 ，Python 就 会 显示 回溯 。 你 也 可 以 调用 traceback.format _ 
exc( ) 得 到 它 的 字符 串 形式 。 如 果 你 希望 得 到 异常 的 回溯 的 信息 ， 也 希望 except 语句 能 优雅 地 处 
理 该 异常 , 那么 使 用 这 个 函数 就 很 有 用 。 在 调用 该 函数 之 前 , 需要 导入 Python 的 traceback 模块 。 

例如 ， 不 是 让 程序 在 异常 发 生 时 就 骨 演 ， 而 是 将 回溯 信息 写 入 一 个 日 志文 件 ， 并 让 程序 继 
续 运 行 。 稍 后 ， 在 准备 调试 程序 时 ,我们 可 以 检查 该 日 志文 件 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import traceback 
>>> try: 
raise Exception('This is the error message.') 
except: 
errorFile = open('errorIinfo.txt', ‘'w') 
errorFile.write(traceback.format exc()) 
errorFile.closel() 
print('The traceback info was written to errorInfo.txt.') 


111 
The traceback info was written to errorInfo.txt. 


write( ) 方 法 的 返回 值 是 111， 因 为 有 111 个 字符 被 写 入 文件 中 。 回 漳 文 本 被 写 入 errorInfo.txt: 


Traceback (most recent call last): 
File "<pyshell#28>", line 2, in <module> 
Exception: This is the error message. 
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在 11.4 节 “ 上 日志” 中， 你 将 学 习 如 何 使 用 10gging 记录 模块 ， 使 用 该 模块 比 简单 地 将 这 
个 错误 信息 写 入 文本 文件 更 有 效 。 


11.3 ”断言 


“断言 ”是 健全 性 检查 ， 用 于 确保 代码 没有 做 什么 明显 错误 的 事情 。 这 些 健 全 性 检查 由 
assert 语句 执行 。 如 果 检 查 失 败 ， 就 会 抛 出 异常 。 在 代码 中 ，assert 语句 包含 以 下 部 分 。 

口 assert 关键 字 。 

口 条 件 〈 即 求 值 为 True 或 False 的 表达 式 )。 

口 逗号 。 

口 当 条 件 为 False 时 显示 的 字符 串 。 

assert 语句 表达 的 是 :“ 我 断言 条 件 成 立 ， 如 果 条 件 不 成 立 ， 则 说 明 某 个 地 方 有 bug， 应 
立即 停止 程序 .” 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> ages = [26, 57, 92, 54, 22, 15, 17, 80, 47, 73] 

>>> ages.sort() 

>>> ages 

[5 47 22 2 4 Ss TW Bs .92} 

>>> assert 

ages[0] <= ages[-1] # Assert that the first age is <= the last age. 


这 里 的 assert 语句 断言 ages 中 的 第 一 项 应 小 于 或 等 于 最 后 一 项 。 这 是 健全 性 检查 ; 如 
果 sort () 中 的 代码 没有 错误 ， 并 且 可 以 完成 工作 ， 则 该 断言 为 真 。 

因为 表达 式 ages[0] <= ages[-1] 求 值 为 True， 所 以 assert 语句 不 执行 任何 操作 。 

但 是 ， 假 设 我 们 的 代码 中 有 一 个 错误 。 假 设 我 们 不 小 心 调用 了 reverse() 列 表 方 法 ， 而 不 
是 sort() 列 表 方 法 。 在 交互 式 环境 中 输入 以 下 内 容 时 ,assert 语句 将 引发 AssertionError: 

>>> sges = [26, 57, 92, 54, 22; 15, 17,; 80, 47,， 73] 

>>> ages .reversel() 

可。 0 

>>> assert ages[0] <= ages[-1] # Assert that the first age is <= the last age. 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
AssertionError 


不 像 异 常 ， 代 码 不 应 该 用 try 和 except 处 理 assert 语句 。 如 果 assert 失败 ， 那 么 程 
序 就 应 该 崩溃。 通过 这 样 的 “快速 失败 ”产生 bug 和 你 第 一 次 注意 到 该 bug 之 间 的 时 间 就 缩短 
了 。 这 将 减少 为 了 寻找 bug 的 原因 而 需要 检查 的 代码 量 。 

断言 针对 的 是 程序 员 的 错误 ， 而 不 是 用 户 的 错误 。 断 言 只 能 在 程序 正在 开发 时 失败 ， 用 户 
永远 都 不 会 在 完成 的 程序 中 看 到 断言 错误 。 对 于 程序 在 正常 运行 中 可 能 过 到 的 那些 错误 (如 文 
件 没 有 找到 ， 或 用 户 输入 了 无 效 的 数据 )， 请 抛 出 异常 ， 而 不 是 用 assert 语句 检测 它 。 不 应 使 
用 assert 语句 来 引发 异常 ， 因 为 用 户 可 以 选择 关闭 断言 。 如 果 你 使 用 python -0 
myscript.py 而 不 是 python myscript.py 运行 Python 脚本 ， 那 么 Python 将 跳 过 assert 
语句 。 如 果 用 户 开发 的 程序 需要 在 具有 最 佳 性 能 的 生产 环境 中 运行 ， 可 能 会 禁用 断言 。( 尽 管 在 
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很 多 时 候 ， 即 使 在 这 种 情况 下 他 们 也 会 使 断言 保持 启用 状态 。) 

断言 不 能 替代 全 面 测 试 。 例 如 ， 如 果 先 前 的 ages 示例 设置 为 [10， 3，2， 1，20]， 
则 断言 ages[0] <= ages[ -1] 不 会 注意 到 列表 未 排序 ， 因 为 刚好 第 一 个 年 龄 小 于 等 于 最 后 一 
个 年 龄 ， 这 是 断言 所 做 的 唯一 检查 。 


在 交通 灯 模 拟 中 使 用 断言 


假定 你 在 编写 一 个 交通 信号 灯 的 模拟 程序 。 代 表 信 号 灯 的 数据 结构 是 一 个 字典 ， 以 'ns' 和 
'ew ' 为 键 ， 分 别 表示 南北 方 同 和 东西 方向 的 信号 灯 。 这 些 键 的 值 可 以 是 'green'、'yellow' 
或 'red' 之 一 。 代 码 看 起 来 可 能 像 这 样 : 


market 2nd = {'ns': 'green', 'ew': “Fed'} 
mission 16th = {'ns': 'red', 'ew': ‘'green'} 


这 两 个 变量 将 针对 Market 街 和 第 2 街路 口 ， 以 及 Mission 街 和 第 16 街路 口 。 在 项 目 启动 
之 初 , 你 希望 编写 一 个 SwitchLights() 函 数 , 它 接 收 一 个 路 口 字 典 作为 参数 ,并 切换 红绿灯 。 

开始 你 可 能 认为 ，switchLights() 只 要 将 每 一 种 灯 按 顺序 切换 到 下 一 种 颜色 即 可 ， 即 
'green' 应 该 切换 到 'yellow'，'yellow' 应 该 切换 到 'red'，'red' 应 该 切换 到 'green'。 
实现 这 个 思想 的 代码 看 起 来 像 这 样 : 


def switchLights(stoplight): 
for key in stoplight.keys(): 
if stoplight[key] == “green ': 


stoplight[key] = 'yellow' 

elif stoplight[key] == 'yellow': 
stoplight[key] = “red' 

elif stoplight[key] == 'red': 


stoplight[key] = 'green' 
SwitchLights (market 2nd) 


你 可 能 已 经 发 现 了 这 段 代 码 的 问题 ， 但 假设 你 编写 了 剩余 的 模拟 代码 ， 有 几 千 行 ， 那 么 很 
可 能 没有 注意 到 这 个 问题 。 当 最 后 运行 时 ， 程 序 没有 裔 淡 ， 但 虚拟 的 汽车 相 撞 了 。 

因为 你 已 经 编写 了 其 余 的 程序 ， 所 以 不 知道 bug 在 哪里 。bug 也 许 在 模拟 汽车 的 代码 中 ， 
也 许 在 模拟 司机 的 代码 中 。 可 能 需要 花 几 小 时 追踪 bug， 才 能 找到 switchLights() 函 数 。 

但 如 果 在 编写 switchLights() 时 ， 你 添加 了 断言 ， 确 保 至 少 一 个 交通 灯 是 红色 ， 可 能 
函数 的 底部 添加 这 样 的 代码 : 

assert 'red' in stoplight.values(), 'Neither light is red! '+ str(stoplight) 

有 了 这 个 断言 ， 程 序 就 会 骨 演 ， 并 提供 这 样 的 错误 信息 : 


Traceback (most recent call last): 
File "carSim.py", line 14, in <module> 
switchLights (market 2nd) 
File "carSim.py", line 13, in switchLights 
assert “'red' in stoplight.values(), 'Neither light is red! '+ 
str(stoplight) 
@ AssertionError: Neither light is red! {'ns': 'yellow', 'ew': 'green'} 
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这 里 比较 重要 的 是 AssertionErrorO@。 虽 然 程 序 崩 演 并 非 如 你 所 愿 ， 但 它 马 上 指出 了 健 
全 性 检查 失败 : 两 个 方向 都 没有 红 灯 ， 这 意味 着 两 个 方向 的 车 都 可 以 走 。 在 程序 执行 中 尽早 失 
败 ， 可 以 省 去 将 来 大 量 的 调试 工作 。 


11.4 日 志 


如 果 你 曾经 在 代码 中 加 入 print() 语 句 ， 以 在 程序 运行 时 输出 某 些 变 量 的 值 ， 那 么 你 就 使 
用 了 写 日 志 的 方式 来 调试 代码 。 写 日 志 是 一 种 很 好 的 方式 ， 可 以 理解 程序 中 发 生 的 事 ， 以 及 事 
情 发 生 的 顺序 。Python 的 10gging 模块 使 你 很 容易 创建 自 定义 的 消息 记录 。 这 些 日 志 消 息 将 
描述 程序 何 时 调用 日 志 函 数 ， 并 列 出 你 指定 的 任何 变量 当时 的 值 。 另 一 方面 ， 缺 失 日 志 消 息 表 明 
有 一 部 分 代码 被 跳 过 ， 从 未 执行 。 


11.4.1 使 用 logging 模块 


要 启用 1ogging 模块 以 在 程序 运行 时 将 日 志 消 息 显示 在 屏幕 上 , 请 将 下 面 的 代码 复制 到 程 
序 顶 部 〈 但 在 Python 的 直行 之 下 ): 


import 10gging 
1ogging.basicconfig(level=10gging.DEBUG，Tformat=' %(asctime)s - %(levelname) 
S - 5%5(messages)S ') 


你 不 需要 过 于 担心 它 的 工作 原理 ， 当 Python 记录 一 个 事件 的 日 志 时 ， 它 都 会 创建 一 个 
LogRecord 对 象 以 保存 关于 该 事件 的 信息 。1ogging 模块 的 函数 让 你 指定 想 看 到 的 这 个 
LogRecord 对 象 的 细节 ， 以 及 希望 的 细节 展示 方式 。 

假如 你 编写 了 一 个 函数 以 计算 一 个 数 的 阶乘 。 在 数学 上 ，4 的 阶乘 是 1x2x3x4， 即 24。 
7 的 阶乘 是 1x2x3x4x5x6x7， 即 5040。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 和 输入 以 下 代码 。 
其 中 有 一 个 bug， 但 你 也 会 输入 一 些 日 志 消 息 ， 帮 助 你 弄 清楚 哪里 出 了 问题 。 将 该 程序 保存 为 
factorialLog.py: 

import logging 

logging.basicConfig{({level=logging.DEBUG, format='%(asctime)s - %(levelname)s 


- %{(message)s') 
logging.debug('Start of program ) 


def factorial(n): 
logging.debug('Start of factoriall(%s%%)' % (n)) 
total = 1 
for i in range(n + 1): 
LCotal *e Ef 
logging.debug("4 as ' 1 Str(3) + ", total i185 "+ str({total}) 
logging.debug('End of factorial(%s%%)' % (n)) 
return total 


print(factorial(S5)) 
logging.debuc('End of program') 


我 们 在 想 如 何 输出 日 志 消 息 时 ， 使 用 了 logging.debug() 函 数 。 这 个 debug () 函数 将 调 
用 basicCconfig() 以 输出 一 行 信息 。 这 行 信息 的 格式 是 我 们 在 basicConfig() 函 数 中 指定 
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的 ， 这 行 信息 包括 我 们 传递 给 debug ( ) 的 消息 。print(factorial(5) ) 调 用 是 原来 程序 的 一 
部 分 ， 因 此 就 算 禁 用 日 志 消 息 ， 结 果 仍 会 显示 。 
这 个 程序 的 输出 结果 就 像 这 样 : 


2019-05-23 16:20:12,664 - DEBUG - Start of program 
2019-05-23 16:20:12,664 - DEBUG - Start of factorial(5) 
2019-05-23 16:20:12,665 - DEBUG - i is 0, total is 0 
2019-05-23 16:20:12,668 - DEBUG - i is 1, total is 0 
2019-05-23 16:20:12,670 - DEBUG - i is 2, total is 0 
2019-05-23 16:20:12,673 - DEBUG - i is 3, total is 0 
2019-05-23 16:20:12,675 - DEBUG - i is 4, total is 0 
2019-05-23 16:20:12,678 - DEBUG - i is 5, total is 0 
2019-05-23 16:20:12,680 - DEBUG - End of factorial(5) 
0 

2019-05-23 16:20:12,684 - DEBUG - End of program 


factorial() 函 数 返 回 0 作为 5 的 阶乘 结果 ， 这 是 不 对 的 。for 循环 应 该 用 从 1 到 5 的 数 
乘 以 total 的 值 。 但 1ogging.debug() 显 示 的 日 志 消息 表明 ，i 变量 从 0 开始 ， 而 不 是 1。 
因为 0 乘 任何 数 都 是 0， 所 以 在 接 下 来 的 迭代 中 ，total 的 值 都 是 错 的 。 日 志 消息 提供 了 可 以 
追踪 的 痕迹 ， 帮 助 你 弄 清楚 何 时 事情 开始 不 对 。 

将 代 人 码 行 for i in range(n + 1): 改 为 for i in range(1,n + 1):， 再 次 运行 程 
序 。 输 出 结果 看 起 来 像 这 样 : 

2019-05-23 17:13:40,650 - DEBUG - Start of program 


2019-05-23 17:13:40,651 - DEBUG - Start of factorial(5) 
2019-05-23 17:13:40,651 - DEBUG - i is 1, total is 1 


2019-05-23 17:13:40,654 - DEBUG - i is 2, total is 2 
2019-05-23 17:13;40,656 - DEBUG - i is 3, total is 6 
2019-05-23 17:13:40,659 - DEBUG - i is 4, total is 24 

2019-05-23 17:13:40,661 - DEBUG - i is 5, total is 120 

2019-05-23 17:13:40,661 - DEBUG - End of factorial(5) 


120 
2019-05-23 17:13:40,666 - DEBUG - End of program 


factorial(5) 调 用 正确 地 返回 120。 日 志 消 息 表明 循环 内 发 生 了 什么 ， 这 直接 指向 了 bug。 
你 可 以 看 到 ，1logging .debug () 调用 不 仅 输出 了 传递 给 它 的 字符 串 ， 而 且 包含 一 个 时 间 
层 和 单词 DEBUG。 


11.4.2 不 要 用 print() 调 试 


输入 import logging 和 1ogging.basicConfig (level=logging .DEBUG, format='% 
(asctime)s - %(levelname)s - %(message)s') 有 一 点 不 方便 。 你 可 能 想 使 用 print() 
代替 ， 但 不 要 屈服 于 这 种 诱惑 。 因 为 在 调试 完成 后 ， 你 需要 花 很 多 时 间 从 代码 中 清除 每 条 日 志 
消息 的 print() 调 用 。 你 甚至 可 能 不 小 心 删除 一 些 print ( ) 调 用 ,而 它们 并 不 是 用 来 产生 日 志 
消息 的 。 使 用 日 志 消 息 的 好 处 在 于 ， 你 可 以 在 程序 中 想 加 多 少 就 加 多 少 ， 稍 后 只 要 加 入 一 次 
logging.disable (1ogging. CRITICAL ) 调 用 就 可 以 禁止 日 志 , 不 像 print() 需 逐条 清除 。 
10gging 模块 使 得 显示 和 隐藏 日 志 消 息 之 间 的 切换 变 得 很 容易 。 

日 志 消 息 是 给 程序 员 的 ， 不 是 给 用 户 的 。 用 户 不 会 因为 便于 调试 而 想 看 到 字典 值 的 内 容 。 
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对 于 用 户 希 望 看 到 的 消息 ， 例 如 “文件 未 找到 ”或 者 “无 效 的 输入 ， 请 输入 一 个 数字 ”， 应 该 使 
用 print() 调 用 。 我 们 不 希望 禁用 日 志 消 息 之 后 ， 让 用 户 看 不 到 有 用 的 信息 。 


11.4.3 日 志 级 别 


“日 志 级 别 ” 提 供 了 一 种 方式 ， 按 重要 性 对 日 志 消 息 进行 分 类 。5 个 日 志 级 别 如 表 11-1 所 
示 ， 从 最 不 重要 到 最 重要 。 利 用 不 同 的 日 志 函 数 ， 消 息 可 以 按 某 个 级 别 记 入 日 忘 。 


表 11-1 Python 中 的 日 志 级 别 


级 别 日 志 函 数 描述 

i Lovoind. dobucts 0 用 于 小 细节 。 通常 只 有 在 诊断 问题 时 ， 你 才 会 关心 这 些 
INFO logging.info() 用 于 记录 程序 中 一 般 事件 的 信息 ， 或 确认 一 切 工 作 正 常 

WARNING logging.warning!() 用 于 表示 可 能 的 问题 ， 它 在 当前 不 会 阻止 程序 的 工作 ， 但 将 来 可 能 会 

ERROR logging.error() 用 于 记录 错误 ， 它 导致 程序 做 某 事 失败 

CRITICAL ep pe 本 用 于 表示 致命 的 错误 ， 它 导致 或 将 会 导致 程序 完全 停止 
日 志 消息 可 作为 一 个 字符 串 传递 给 这 些 函 数 。 只 是 一 种 建议 ， 归 根 到 底 ， 还 是 由 


你 来 决定 日 志 消 息 属 于 哪 一 种 类 型 。 te 


>>> import logging 

>>> logging.basicConfig(level=logging.DEBUG, format="' %(asctime)s - 
%s(levelname)s - %(message)s') 

>>> logging.debug('Some debugging details.') 

2019-05-18 19:04:26,901 - DEBUG - Some debugging details. 

>>> logging.info('The logging module is working.') 

2019-05-18 19:04:35,569 - INFO - The logging module is working. 

>>> logging.warning('An error message is about to be logged.') 
2019-05-18 19:04:56,843 - WARNING - An error message is about to be logged. 
>>> logging.error('An error has occurred.') 

2019-05-18 19:05:07,737 - ERROR - An error has occurred. 

>>> logging.criticall('The program is unable to recover!') 

2019-05-18 19:05:45,794 - CRITICAL - The program is unable to recover! 


划分 日 志 级 别 的 好 处 在 于 , 你 可 以 改变 和 希望 看 到 的 日 志 消 息 的 优先 级 。 回 basicConfig() 
函数 传 入 1ogging.DEBUG 作为 level 关键 字 参 数 ， 这 将 显示 所 有 日 志 级 别 的 消息 (DEBUG 
是 最 低 的 级 别 )。 但 在 开发 了 更 多 的 程序 后 ， 你 可 能 只 对 ERROR 感 兴 趣 。 在 这 种 情况 下 ， 可 以 
将 basicConfig() 的 level 参数 设置 为 1]ogging .ERROR, 这 将 只 显示 ERROR 和 CRITICAL 
消息 ， 跳 过 DEBUG、INFO 和 WARNING 消息 。 


11.4.4 禁用 日 志 


在 调试 完 程序 后 ， 你 可 能 不 硕 望 所 有 日 筷 消 息 出 现在 屏幕 上 。 使 用 logging. disable() 
图 数 蔡 用 这 些 消 息 ， 这 样 就 不 必 进 入 程序 中 手动 删除 所 有 的 日 志 调 用 。 只 要 向 1ogging. 
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disable() 传 入 一 个 日 志 级 别 ， 它 就 会 禁止 该 级 别 和 更 低级 别 的 所 有 日 志 消 息 。 因 此 ， 如 果 想 
要 禁用 所 有 日 志 ， 只 要 在 程序 中 添加 1ogging. disable (logging.CRITICAL) 即 可 。 例 如 ， 
在 交互 式 环境 中 输入 以 下 代码 : 


>>> import logging 

>>> logging.basicConfig(level=logging.INFO, format=' %(asctime)s - 
%(levelname)s - %(message)s') 

>>> logging.critical('Critical error! Critical error!') 
2019-05-22 11:10:48,054 - CRITICAL - Critical error! Critical error! 
>>> logging.disable(logging.CRITICAL) 

>>> logging.critical('Critical error! Critical error!') 

>>> logging.error('Error! Error!’) 


因为 Jogging .disable() 将 禁用 它 之 后 的 所 有 消息 ， 所 以 你 可 以 将 它 添加 到 程序 中 接近 
import logging 代码 行 的 位 置 。 这 样 就 很 容易 找到 它 ， 根 据 需要 注释 掉 它 或 取消 注释 ， 从 而 
启用 或 禁用 日 志 消 息 。 


11.4.5 将 日 志 记录 到 文件 


除了 将 日 志 消 息 显示 在 屏幕 上 ， 还 可 以 将 它们 写 入 文本 文件 。Llogging.basic Config() 
函数 接收 filename 关键 字 参 数 ， 像 这 样 : 
import logging 


logging.basicConfig(filename='myProgramLog.txt', level=logging.DEBUG, format=' 
%(asctime)s - %(levelname)s - %(message)s') 


日 志 消 息 将 保存 到 myProgramLog.txt 文件 中 。 虽然 日 志 消 息 很 有 用 , 但 它们 可 能 充满 屏幕 ， 
让 你 很 难 读 到 程序 的 输出 。 将 日 志 消 息 写 入 文件 ， 可 以 在 屏幕 保持 干净 的 同时 又 能 保存 信息 ， 
这 样 在 运行 程序 后 也 可 以 阅读 这 些 信 息 。 可 以 用 任何 文件 编辑 器 打开 这 个 文本 文件 , 如 Notepad 
或 TextEdit。 


11.5 ”Mu 的 调试 器 


“调试 器 ”是 Mu 编辑 器 、IDLE 和 其 他 编辑 器 软件 的 一 项 功能 ， 它 让 你 每 次 执行 一 行程 序 。 
调试 器 将 运行 一 行 代 码 ， 然 后 等 待 你 告诉 它 是 否 继续 。 像 这 样 让 程序 运行 在 调试 器 之 下 ， 你 可 
以 随便 花 多 少时 间 ， 检 查 程 序 运行 时 任意 一 个 时 刻 的 变量 的 值 。 对 于 追踪 bug， 这 是 一 个 很 有 
价值 的 工具 。 

要 局 用 Mu 的 调试 器 ， 就 单 击 顶部 按钮 行 中 的 Debug 按钮 ， 它 在 Run 按钮 旁边 。 与 底部 的 
常规 输出 窗 格 一 样 ,“Debug Inspector”( 调 试 检查 器 〉 窗 格 将 在 窗口 的 右 侧 打开 。 这 个 窗 格 列 
出 了 程序 中 变量 的 当前 值 。 图 11-1 所 示 为 调试 器 在 程序 运行 第 一 行 代 码 之 前 就 暂停 了 程序 的 执 
行 。 可 以 在 文件 编辑 器 中 看 到 该 行 高 亮 显示 。 

调试 模式 也 会 将 以 下 新 按钮 添加 到 编辑 器 顶部 : Continue、Step In、Step Over 和 Step Out。 
平时 的 Stop 按钮 也 可 用 。 
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© Me 100 -buggyhddmgProgrampy 


本 二 二 上 寺 XX > 证 注 和 县 和 包 
buggraddngpvogram py XK 
和 print('Enter the first number to add:') 

2 first = input() 

3 print('Enter the second number to add:') 

4 second = input() 

s print('Enter the third number to add:') 

6 third = input() 

7 print('The sum is ' + first + second + third) 


uning. bugaovyAddinopvroorern py 


图 11-1 Mu 在 调试 器 下 运行 程序 
11.5.1 Continue 


单 击 Continue 按钮 将 使 程序 正常 执行 ， 直 到 程序 终止 或 到 达 “ 断 点 ”〈 本 章 稍 后 将 介绍 断 
点 )。 如 果 完 成 调试 并 希望 程序 继续 正常 运行 ， 请 单 击 Continue 按钮 。 


11.5.2 Step In 


单 击 Step In 按钮 将 使 调试 器 执行 下 一 行 代 码 , 然后 再 次 暂停 。 如果 下 一 行 代码 是 函数 调用 ， 
则 调试 器 将 “进入 ”函数 并 跳 转 到 该 函数 的 第 一 行 代码 。 
11.5.3 Step Over 

单 击 Step Over 按钮 将 执行 下 一 行 代码 ， 类 似 于 单 击 Step In 按钮 。 但 是 ， 如 果 下 一 行 代码 
是 函数 调用 ， 则 Step Over 按钮 将 “ 跳 过 ”该 函数 中 的 代码 。 该 函数 的 代码 将 全 速 执 行 ， 并 且 一 
旦 函数 调用 返回 ， 调 试 器 将 暂停 。 例 如 ， 如 果 下 一 行 代 码 调用 了 spam( ) 函数 ， 但 你 实际 上 并 
不 关心 该 函数 中 的 代码 , 则 可 以 单 击 Step Over 按钮 以 正常 速度 执行 该 函数 中 的 代码 , 然后 在 该 
函数 返回 时 暂停 执行 。 因 此 ， 使 用 Step Over 按钮 比 使 用 Step In 按钮 更 为 利 见 。 
11.5.4 Step Out 


单 击 Step Out 按钮 将 使 调试 器 全 速 执行 代码 行 ， 直 到 从 当前 函数 返回 为 止 。 如 宋 你 已 单 击 
Step In 按钮 进入 函数 调用 ， 而 现在 只 想 继续 执行 指令 直到 退出 该 函数 ， 请 单 击 Step Out 按钮 以 
“跳出 ”当前 函数 调用 。 


11.5 Siop 
如 果 要 完全 停止 调试 并 且 不 想 继续 执行 程序 的 其 余部 分 ， 请 单 击 Stop 按钮 。 单 击 Stop 控 
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钮 将 立即 终止 程序 。 


11.5.6 ”调试 一 个 数字 相 加 的 程序 
打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 : 


print('Enter the first number to add:') 

first = input() 

print('Enter the second number to add:') 
second = input() 

print('Enter the third number to add:') 
third = input() 

print('The sum is "+ first + Second + third) 


将 它 保存 为 buggyAddingProgram.py， 第 一 次 运行 它 时 不 启用 调试 器 。 程序 的 输出 结果 像 这 样 : 


Enter the first number to add: 


5 

Enter the second number to add: 
3 

Enter the third number to add: 
42 


The sum is 5342 

这 个 程序 没有 崩 演 ， 但 求 和 显然 是 错 的 。 再 次 运行 它 ， 这 次 在 调试 器 控制 之 下 运行 。 

当 你 单 击 Debug 按钮 时 , 程序 将 暂停 在 第 1 行 , 这 是 将 要 执行 的 代码 。 Mu 看 起 来 如 图 11-1 
所 示 。 

单 击 一 次 Step Over 按钮 ， 执 行 第 一 个 print() 调 用 。 这 里 应 该 单 击 Step Over 按钮 ， 而 不 
是 Step In， 因 为 你 不 希望 进入 print () 函数 的 代码 。( 尽 管 Mu 应 该 会 阻止 调试 器 进入 Python 
的 内 置 函数 。) 调试 器 转向 第 2 行 ， 文 件 编辑 器 中 的 第 2 行将 高 亮 显示 ， 如 图 11-2 所 示 。 这 告 
诉 你 程序 当前 执行 到 哪里 。 


© Mu 100 -bug9yAddingpProgram py 
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print('Enter the first number to add:') 
first = input() 
print('Enter the second number to add:') 
second = input{) 
print('Enter the third number to add:') 
third = input() 


print('The sum 1S / + first + second + third) 


Runnine. buoors& GSngPr ooram .py 
Enter the first number to add; 


图 11-2 单 击 Step Over 按钮 后 的 Mu 编辑 器 窗口 
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再 次 单 击 Step Over 按钮 ,执行 Input () 函 数 调用 , 当 Mu 等 待 你 在 输出 窗 格 中 为 input () 
调用 输入 内 容 时 ， 高 亮 将 会 消失 。 输 入 5 并 按 回 车 键 ， 高 亮 会 重新 出 现 。 

继续 单 击 Step Over 按钮 ， 输 入 3 和 42 作为 接 下 来 的 两 个 数 ， 直 到 调试 器 位 于 第 7 行 一 一 
程序 中 最 后 的 print ( ) 调用 。Mm 编辑 器 窗口 应 该 如 图 11-3 所 示 。 


x 
1 print('Enter the first number to add:') 
2 first = input() 
3 print('Enter the second number to add: ") 
4 Second = input{) 
s print('Enter the third number to add:') 
s third = input() 
+ print('The sum 15 ”+ first + second + third) 
a 
| Nemec buendle pen py 


Enter the second number to add: 
3 


Enter the third number to add: 
42 


图 11-3” 右 侧 的 Debug Inspector 窗 格 显示 ， 变 量 设置 为 字符 串 而 不 是 整数 ， 从 而 导致 该 错误 


在 Debug Inspector 窗 格 中 可 以 看 到 ，first、second 和 third 变量 被 设置 为 字符 串 值 ， 而 
不 是 整 型 值 。 当 最 后 一 行 执行 时 ， 这 些 字符 串 连接 起 来 ， 而 不 是 加 起 来 ， 从 而 导致 了 这 个 bug。 

用 调试 器 单 步 执行 程序 很 有 用 ， 但 也 可 能 很 慢 。 如 果 你 希望 程序 正常 运行 ， 但 在 特定 的 代 
码 行 停 止 ， 那 么 可 以 使 用 断 点 让 调试 器 做 到 这 一 点 。 


11.5.7 断 点 


“ 断 点 ”可 以 设置 在 特定 的 代码 行 上 ， 当 程序 执行 到 达 该 行 时 ， 它 迫使 调试 器 暂停 。 在 一 个 
新 的 文件 编辑 器 窗口 中 输入 以 下 程序 ， 它 模拟 投掷 1000 次 硬币 ， 将 该 文件 保存 为 coinFlip.py: 


import random 


heads = 0 
for i in range(T1，1001) : 
@ if random.randint(0, 1) == 1: 


heads = heads + 1 
if i == 500: 
@ print('Halfway done!') 
print('Heads came up “+ str(heads) + ' times.') 


在 半数 时 间 里 ，random.randint (0，1) 调 用 @ 将 返回 0， 在 另外 半数 时 间 里 将 返回 1。 
这 可 以 用 来 模拟 硬币 投掷 ， 其 中 1 代表 正面 。 当 不 用 调试 器 运行 该 程序 时 ， 它 很 快 会 输出 下 面 
的 内 容 : 


Halfway done! 
Heads came up 490 times. 


ran 
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如 果 启 用 调试 器 来 运行 这 个 程序 , 那么 就 必须 单 击 几 千 次 Step Over 按钮 程序 才能 结束 。 如 
果 你 在 程序 执行 到 一 半 时 对 heads 的 值 感 兴趣 ， 那 么 等 1000 次 硬币 投掷 完 500 次 后 ， 可 以 在 
代码 行 print('Halfway done!')@ 上 设置 断 点 。 要 设置 断 点 ， 请 在 文件 编辑 器 中 单 击 该 行 
代码 的 行 号 ， 会 出 现 一 个 红 点 来 标识 该 断 点 ， 如 图 11-4 所 示 。 


Ci XX 
1 import random 


2 heads = 9 
3 for 1 in range(l1, 1001): 
4 


if random.randint(©, 1) == 1: 
5 ' heads = heads + 1 
6 if 1 == 500: 
print('Halfway done!') 
s print('Heads came lp ' + Str(headsj) + ‘ times.')f 


图 11-4 设置 断 点 ， 让 一 个 红 点 ( 圆圈 内 ) 出 现在 行 号 边 上 


不 要 在 if 语句 上 设置 断 点 ， 因 为 if 语句 会 在 循环 的 每 次 迭代 中 都 执行 。 在 if 语 匈 内 的 
代码 上 设置 断 点 ， 调 试 器 就 会 只 在 执行 进入 if 语句 时 才 中 断 。 

带 有 断 点 的 代码 行 旁边 有 一 个 红 点 。 如 果 在 调试 器 下 运行 该 程序 ， 那 么 开始 它 会 暂停 在 第 
一 行 ， 像 平时 一 样 。 但 如 果 单 击 Continue 按钮 ， 程 序 将 全 速 运行 ， 直 到 遇 到 设置 了 断 点 的 代码 
行 。 然 后 可 以 单 击 Continue、Step Over、Step In 或 Step Out 按钮 ， 让 程序 正常 继续 。 

如 果 和 希望 清除 断 点 ， 请 再 次 单 击 该 行 号 ， 红 点 将 消失 ， 以 后 调试 器 将 不 会 在 该 行 代 码 上 中 断 。 


11.6 小结 


断言 、 异 常 、 日 志和 调试 器 都 是 在 程序 中 发 现 和 预防 bug 的 有 用 工具 。 用 Python 语句 实现 
言 ， 是 实现 “健全 性 检查 ”的 好 方式 。 如 果 没 有 将 必要 的 条 件 保持 为 True， 那 么 断言 将 尽早 
出 警告 。 断 言 所 针对 的 错误 是 程序 不 应 该 尝试 恢复 的 ， 应 该 快速 失败 ， 否则 ， 你 应 该 抛 出 异常 。 
异常 可 以 由 try 和 except 语句 捕捉 和 人 处理。 使 用 1ogging 模块 是 一 种 很 好 的 方式 ， 可 
以 在 运行 时 查看 代码 的 内 部 ， 它 比 使 用 print () 函数 要 方便 得 多 ， 因 为 它 有 不 同 的 日 志 级 别 ， 
并 能 将 日 志 消 息 写 入 文本 文件 。 
调试 器 让 你 每 次 单 步 执行 一 行 代码 。 你 也 可 以 用 正常 速度 运行 程序 ， 并 让 调试 器 暂停 在 设 
置 了 断 点 的 代码 行 上 。 利 用 调试 器 ， 你 可 以 看 到 程序 在 运行 期 间 任何 时 候 任意 变量 的 值 。 
这 些 调试 工具 和 技术 将 帮助 你 编写 正确 工作 的 程序 。 不 小 心 在 代码 中 引入 bug 是 不 可 避免 
的 ， 不 论 你 有 多 少年 的 编码 经 验 。 


新 
给 


11.7 “习题 


1. 写 一 条 assert 语句 ,如 果 变 量 spam 是 一 个 小 于 10 的 整数 , 就 触发 AssertionError。 
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2. 写 一 条 assert 语句 ， 如 果 eggs 和 bacon 包含 的 字符 串 相 同 〈 不 区 分 大 小 写 )， 就 触 
发 AssertionError (也 就 是 说 ，'hello' 和 'hello' 被 认为 相同 ,，'goodbye' 和 'GOO0Dbye 
也 被 认为 相同 )。 

3. 编写 一 条 assert 语句 ， 使 其 总 是 触发 AssertionError。 

4. 为 了 能 调用 1ogging .debug() ， 程 序 中 必须 加 入 哪 两 行 代码 ? 

5. 为 了 让 logging.debug() 将 日 志 消 息 发 送 到 名 为 programLog .txt 的 文件 中 ， 程 序 
必须 加 入 哪 两 行 代 码 ? 

6. 5 个 日 志 级 别 是 什么 ? 

7. 你 可 以 加 入 哪 一 行 代码 来 禁用 程序 中 所 有 的 日 志 消 息 ? 

8. 显示 同样 的 消息 ， 为 什么 使 用 日 志 消 息 比 使 用 print() 要 好 ? 

9. 调试 控制 窗口 中 的 Step Over、Step In 和 Step Out 按钮 有 什么 区 别 ? 

10. 单 击 Continue 按钮 后 ， 调 试 器 何 时 会 停 下 来 ? 

11. 什么 是 断 点 ? 

12. 在 Mu 中 ， 如 何在 一 行 代 码 上 设置 断 点 ? 


11.8 ”实践 项 目 
作为 实践 ， 编 程 完成 下 面 的 任务 。 
调试 硬币 抛掷 程序 


下 面 程 序 实现 一 个 简单 的 硬币 抛 丘 猜 测 游戏 。 玩 家 有 两 次 猜测 机 会 (这 是 一 个 简单 的 游戏 )。 
但 是 程序 中 有 一 些 bug， 让 程序 运行 几 次 ， 找 出 bug， 使 该 程序 能 正确 运行 : 


import random 
guess = "' 
while guess not in ('heads', 'tails'): 
print('Guess the coin toss! Enter heads or tails:') 
guess = linput() 
toss = random.randint(0, 1) # 0 is tails, 1 is heads 
if toss == guess: 
print('You got it!') 
else: 
print('Nope! Guess again!') 
guesss = input() 
if toss == guess: 
printf 'You got it!') 
else: 
printi'Nope. You are really bad at this game.') 
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当 没 有 Wi-Fi 的 时 候 , 我 才 意 识 到 ,我 在 计算 机 上 所 做 的 事 有 很 多 实际 
上 是 在 因特网 上 做 的 事 ， 如 收 邮 件 、 阅 读 朋 友 的 推 特 ， 或 回答 问题 “ 库 特 伍 
德 . 史密斯 (Kurtwood Smith ) 在 出 演 1987 年 的 《机 械 战 警 》 之 前 ， 演 过 主 
A 

因为 计算 机 上 如 此 多 的 工作 都 与 因特网 有 关 , 所 以 如 果 程 序 能 上 网 就 太 
好 了 。 Web 抓 取 ”是 一 个 术语 , 即 利用 程序 来 下 载 并 处 理 来 自 Web 的 内 容 。 
例如 ，Google 运行 了 许多 Web 抓 取 程序 来 对 网 页 进行 索引 ， 以 实现 它 的 搜 
索引 车。 在 本 章 中 ， 你 将 学 习 以 下 几 个 模块 ， 让 在 Python 中 抓 取 网 页 变 得 
很 容易 。 
口 webbrowser: 是 Python 自 带 的 ， 可 打开 浏览 器 获取 指定 页 面 。 
D requests: 从 因特网 上 下 载 文件 和 网 页 。 
口 bs4: 解析 HTML， 即 网 页 编写 的 格式 。 
口 selenium: 启动 并 控制 一 个 Web 浏览 器 。selenium 能 够 填写 表单 ， 并 模 


拟 鼠 标 在 这 个 浏览 器 中 单 击 。 
12.1 项 目 : 利用 webbrowser 模块 的 maplt.py a 


webbrowser 模块 的 open() 函数 可 以 启动 一 个 新 浏览 器 来 打开 指定 的 
URL。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import webbrowser 
>>> webbrowser.open('https://inve****thon.com/') 


Web 浏览 器 的 标签 页 将 打开 Invent with Python 网 站 。 这 大 概 就 是 webbrowser 模块 能 做 的 
唯一 的 事情 了 。 即 使 如 此 ，open( ) 函数 确实 能 让 一 些 有 趣 的 事情 成 为 可 能 。 例 如 ， 将 一 条 街道 
的 地 址 复制 到 剪贴 板 ， 并 在 Google 地 图 上 寻找 它 ， 这 是 很 繁琐 的 事 。 你 可 以 让 这 个 任务 减少 几 
个 步骤 ， 方 法 是 写 一 个 简单 的 脚本 ， 以 利用 剪贴 板 中 的 内 容 在 浏览 器 中 自动 加 载 地 图 。 这 样 ， 
你 只 要 将 地 址 复制 到 前 贴 板 即 可 。 运 行 该 脚本 ， 地 图 就 会 加 载 。 

你 的 程序 需要 做 到 下 列 事情 。 


视频 讲解 


由 答案 是 没有 。 


212 第 12 章 从 Web 抓 取 信息 


1. 从 命令 行 参数 或 前 贴 板 中 取得 街道 地 址 。 

2. 打开 Web 浏览 器 ， 指 向 该 地 址 的 Google 地 图 页 面 。 
这 意味 着 代码 需要 做 下 列 事情 。 

1. 从 sys.argv 读 取 命令 行 参 数 。 

2. 读 取 剪贴 板 内 容 。 

3. 调用 webbrowser .open() 函数 打开 外 部 浏览 器 。 
打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保 存 为 maplt.py。 


第 1 步 : 弄 清 楚 URL 
根据 附录 B 中 的 指导 ， 建 立 mapItpy， 使 得 当 你 从 命令 行 运行 它 时 ， 像 这 样 : 


C:\> mapit 870 Valencia St，San Francisco, CA 94110 


该 脚本 将 使 用 命令 行 参数 ， 而 不 是 前 贴 板 。 如 果 没 有 命令 行 参 数 ， 程 序 就 知道 要 使 用 剪贴 
板 的 内 容 了 。 

首先 你 需要 和 弄 清楚 对 于 指定 的 街道 地 址 ， 要 使 用 怎样 的 URL。 你 在 浏览 器 中 打开 Google 
地 图 并 查找 一 个 地 址 时 ， 地 址 栏 中 的 URL 看 起 来 很 长 ， 后 级 为 maps/place/870+Valencia+St/ 
@37.7590311,-122.4215096, 17zdata=!3ml1!4b1!4m2!3ml! ] sOx808f7e3dadc07a37:0xc86b0b2bb93b73d8。 

地 址 就 在 URL 中 ， 但 其 中 还 有 许多 附加 的 文本 。 网 站 常常 在 URL 中 添加 额外 的 数据 ， 帮 
助 追踪 访问 者 或 定制 网 站 。 但 如 果 你 尝试 使 用 这 样 的 后 级 maps/place/870+Valencia+St+San+ 
Francisco+CA/， 就 会 发 现 仍 然 可 以 到 达 正 确 的 页 面 。 所 以 你 的 程序 可 以 设置 为 打开 一 个 浏览 器 ， 
访问 后 级 为 maps/place/your address_string' 的 Google 网 页 (其 中 your_address_string 是 想 人 三 看 
的 地 图 的 地 址 )。 


第 2 步 处 理 命令 行 参 数 
让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# mapIt.py - Launches a map in the browser using an address from the 
# command line or clipboard. 


import webbrowser, sys 

if len(sys.argv) > 1: 
# Get address from command line. 
address = ' '.join(sys.argv[1:]) 

# TODO: Get address from clipboard. 


在 程序 的 要 行 之 后 ， 需 要 导入 webbrowser 模块 来 加 载 浏览 器 ; 以 及 导入 sys 模块 ， 用 于 
读 入 可 能 的 命令 行 参数 。sys .argv 变量 保存 了 程序 的 文件 名 和 命令 行 参数 的 列表 。 如 果 这 个 
列表 中 不 只 有 文件 名 , 那么 len (sys .argv) 的 返回 值 就 会 大 于 1, 这 意味 着 确实 提供 了 命令 行 
参数 。 

命令 行 参 数 通常 用 空格 分 隔 ， 但 在 这 个 例子 中 ， 你 希望 将 所 有 参数 解释 为 一 个 字符 串 。 因 
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为 sys .argv 是 字符 串 的 列表 ， 所 以 你 可 以 将 它 传递 给 join() 方 法 ， 这 将 返回 一 个 字符 串 。 
你 不 希望 程序 的 名 称 出 现在 这 个 字符 串 中 , 因此 不 是 使 用 sys .argv, 而 是 使 用 sys .argv[1:] 
来 去 掉 这 个 数组 的 第 一 个 元 素 。 这 个 表达 式 求 值得 到 的 字符 串 保存 在 address 变量 中 。 

如 果 运 行程 序 时 在 命令 行 中 输入 以 下 内 容 : 

mapit 870 Valencia St, San Francisco，CA 94110 


sys .argv 变量 将 包含 这 样 的 列表 值 : 
['mapIt.py', '870', 'Valencia', 'St, ', 'San', 'Francisco, ', 'CA', '94110'] 


address 变量 将 包含 字符 串 '870 Valencia St，San Francisco, CA 94110'。 
第 3 步 : 处 理 剪 贴 板 内 容 ， 加 载 浏览 虽 
让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# mapIt.py - Launches a map in the browser using an address from the 
# command line or clipboard. 


import webbrowser, sys, pyperclip 
if len(sys.argv) > 1: 
# Get address from command line. 
address = "' '.join(sys.argv[1:]) 
else: 
# Get address from clipboard. 
address = pyperclip.paste() 


webbrowser .open( 用 Google 网 址 蔡 换 /maps/place/' + address) 

如 果 没 有 命令 行 参数 ， 程 序 将 假定 地 址 保存 在 剪贴 板 中 。 可 以 用 pyperclip.paste() 取 
得 剪贴 板 的 内 容 ， 并 将 它 保存 在 名 为 address 的 变量 中 。 最 后 ， 启 动 外 部 浏览 器 访问 Google 
地 图 的 URL， 并 调用 webbrowser .open( ) 。 

虽然 你 写 的 某 些 程序 可 能 完成 大 型 任务 ， 从 而 为 你 节省 数 小 时 的 时 间 ， 但 使 用 一 个 程序 在 
每 次 执行 一 个 常用 任务 (例如 取得 一 个 地 址 的 地 图 ) 时 节省 几 秒 时 间 ， 同 样 令 人 满意 。 表 12-1 
比较 了 有 mapILpy 和 没有 它 时 ， 显 示 地 图 所 需 的 步骤 。 


表 12-1 手动 取得 地 图 和 利用 maplt.py 取得 地 图 


手动 取得 地 图 利用 mapit.py 
.高 亮 标 记 地 址 .高 亮 标记 地 址 
.复制 地 址 2. 复制 地 址 
.打开 Web 浏览 器 3. 运行 maplIt.py 
.打开 Google 地 图 
， 单 击 地 址 文本 字段 
. 复制 地 址 
. 按 回 车 键 


程序 让 这 个 任务 变 得 不 那么 繁琐 。 


“一 - 
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第 4 步 : 类 似 程序 的 想法 


只 要 你 有 一 个 URL,webbrowser 模块 就 可 以 让 用 户 不 必 打 开 浏览 器 而 直接 加 载 一 个 网 站 。 
其 他 程序 可 以 利用 这 项 功能 完成 以 下 任务 。 

口 在 独立 的 浏览 器 窗口 中 ， 打 开 一 个 页 面 中 的 所 有 链接 。 

口 用 浏览 器 打开 本 地 天 气 的 URL。 

口 打开 你 经 常 查看 的 几 个 社交 网 站 。 


12.2 ”用 requests 模块 从 Web 下 载 文件 


requests 模块 让 你 很 容易 从 Web 下 载 文件 ， 不 必 担 心 一 些 复杂 的 问题 ， 如 网 络 错误 、 连 
接 问 题 和 数据 压缩 。requests 模块 不 是 Python 自 带 的 ， 所 以 必须 先 安 装 。 通 过 命令 行 ， 运 行 
pip install --user requests (附录 A 详细 介绍 了 如 何 安 装 第 三 方 模块 )。 

导入 requests 模块 是 因为 Python 的 urllib2 模块 用 起 来 太 复杂 。 实 践 时 ， 请 拿 一 文 记 
号 笔 涂 黑 这 一 段 ， 忘 记 我 曾 提 到 ur11ib2。 如 果 你 需要 从 Web 下 载 东 西 ， 使 用 requests 模 
块 就 好 了 。 

接 下 来 做 一 个 简单 的 测试 ， 确 保 requests 模块 已 经 正确 安装 。 在 交互 式 环境 中 输入 以 下 
代码 : 


>>> import requests 


如 果 没 有 错误 信息 显示 ， 表 示 requests 模块 安装 成 功 了 。 
12.2.1 用 requests.get() 函 数 下 载 一 个 网 页 


requests.get() 函 数 接收 一 个 要 下 载 的 URL 字符 串 。 通 过 在 requests. get() 的 返回 
值 上 调用 type()， 你 可 以 看 到 它 返 回 一 个 Response 对 象 ， 其 中 包含 了 Web 服务 器 对 你 的 请 
求 做 出 的 响应 。 稍 后 我 将 更 详细 地 解释 Response 对 象 , 现在 请 在 交互 式 环境 中 输入 以 下 代码 ， 
并 保持 计算 机 与 因特网 的 连接 : 


>>> import requests 
© >>> res = requests.get(automatetheboringstuff 网 址 的 /files/rj.txt') 
>>> type(res) 
<class 'requests.models.Response'> 
>>> res.status code == requests .codes .ok 
True 
>>> Jen(res.text) 
178981 
>>> print(res.text[:250] ) 
The Project Gutenberg EBook of Romeo and Juliet, by William Shakespeare 


This eBook is for the use of anyone anywhere at no cost and with 
almost no restrictions whatsoever. You may copy it, give it away or 
re-use it under the terms of the Project 
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该 URL 指 问 一 个 文本 页 面 ， 其 中 包含 整 部 《罗密欧 与 朱丽叶 》， 它 是 由 古 登 堡 计划 @ 提 供 
的 。 通 过 检查 Response 对 象 的 status_code 属性 , 你 可 以 了 解 对 这 个 网 页 的 请 求 是 否 成 功 。 
如 果 该 值 等 于 requests.codes.ok， 那 么 一 切 都 好 @ (顺便 说 一 下 ，HTTP 中 “OK” 的 状态 
码 是 200。 你 可 能 已 经 熟悉 404 状态 码 , 它 表示 “ 没 找到 ”)。 你 可 以 在 维基 百科 找到 完整 的 HTTP 
状态 码 及 其 含义 列表 。 

如 果 请 求 成 功 ， 下 载 的 页 面 就 作为 一 个 字符 串 保 存在 Response 对 象 的 text 变量 中 。 这 
个 变量 保存 了 包含 整 部 戏剧 的 一 个 大 字符 串 , 调用 len (res .text) 表 明 它 的 长 度 超过 178 000 
个 字符 。 最 后 ， 调 用 print(res.text[ :250] ) 显示 前 250 个 字符 。 

如 果 请 求 失 败 并 显示 错误 信息 ， 如 “Failed to establish a new connection” 或 “Max 
retries exceeded”， 那 么 请 检查 你 的 网 络 连 接 。 连 接 到 服务 器 可 能 相当 复杂 ， 在 这 里 我 不 
能 给 出 一 个 完整 的 问题 清单 。 你 可 以 在 网 络 上 搜索 引号 中 的 错误 信息 ， 找 到 常见 的 错误 原因 。 


12.2.2 检查 错误 


正如 你 看 到 的 ，Response 对 象 有 一 个 status_code 属性 ， 可 以 检查 它 是 否 等 于 
requests.codes.ok， 从 而 了 解 下 载 是 否 成 功 。 检 查 成 功 与 否 有 一 种 简单 的 方法 ， 就 是 在 
Response 对 象 上 调用 raise_for_status() 方 法 。 如 果 下 载 文件 出 错 ， 将 抛 出 异常 ， 如 果 下 
载 成 功 ， 就 什么 也 不 做 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> res = requests.get('https://inv -一 /page that does not exist') 
>>> res.raise for status() 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 


File "C:\Users\Al\AppData\Local\Programs\Python\Python37\lib\site-packages\requests\models 
.Py", line 940, in raise for status 
raise HTTPError(http_error msg, response=self) 
requests.exceptions.HTTPError: 404 Client Error: Not Found for url: https://inv /page_ 
that does not exist.html 


调用 raise_for_status() 方 法 是 一 种 很 好 的 方式 ， 确 保 程 序 在 下 载 失 败 时 停止 。 这 是 
一 件 好 事 : 你 希望 程序 在 发 生 未 预期 的 错误 时 马上 停止 。 如 果 下 载 失 败 对 程序 来 说 不 够 严重 ， 
可 以 用 try 和 except 语句 将 raise_for_status() 代 码 行 包 时 起 来 ， 处 理 这 一 错误 ， 不 让 
程序 崩溃 : 


import requests 
res = requests.get('https://inv ~/page that does not exist') 
trys 
res.raise for status!() 
except Exception as exc: 
print('There was a problem: %s' % (exc)) 


这 次 raise_for_status() 方 法 调用 导致 程序 输出 以 下 内 容 : 


There was a problem: 404 Client Error: Not Found for url: https:// 
inv := /page that does not exist.html 


程序 总 是 在 调用 requests.get() 之 后 再 调用 raise_for_status()。 确保 下 载 成 功 后 
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再 让 程序 继续 。 


12.3 ”将 下 载 的 文件 保存 到 硬盘 


现在 , 可 以 用 标准 的 open( ) 函数 和 write() 方 法 , 将 Web 页 面 保存 到 硬盘 中 的 一 个 文件 。 
但 是 ， 这 里 讲 的 方法 稍稍 有 一 点 不 同 。 首 先 ， 必 须 用 “ 写 二 进 制 ” 模 式 打开 该 文件 ， 即 辐 函 数 
传 入 字符 串 'wb ' 作 为 open() 的 第 二 参数 。 即 使 该 页 面 是 纯 文 本 的 ,你 也 需要 写 入 二 进 制 数据 ， 
而 不 是 文本 数据 ， 目 的 是 保存 该 文本 中 的 “Unicode 编码 ”。 

为 了 将 Web 页 面 写 入 一 个 文件 ,可 以 使 用 for 循环 和 Response 对 象 的 iter_content ( ) 
方法 。 

>>> import requests 

>>> res = requests.get('https://auto -» /files/rj.txt') 

>>> res.raise for status!() 

>>> playFile = open('RomeoAndJuliet.txt', ' wb ') 


>>> for chunk in res.iter content(100000) : 
playFile.write(chunk ) 


100000 
78981 
>>> playFile.closel() 


Unicode < 编码 
Unicode 编码 超出 了 本 书 的 范围 ， 你 可 以 和 解 更 多 的 相关 内 容 


DQ Joel on Software: “The Absolute Minimum Every Software i pn ey 
~ Must Know About Unicode and Character Sets (No Excuses!)”; 
口 Ned Batchelder: “Pragmatic Unicode”. 


iter_content() 方 法 在 循环 的 每 次 迭代 中 返回 一 段 内 容 ， 每 一 段 都 是 bytes 数据 类 型 ， 
你 需要 指定 一 段 包含 多 少 字 节 。100 000 字 节 通常 是 不 错 的 选择 ， 所 以 将 “100 000” 作 为 参数 
传递 给 ijter content()。 

文件 RomeoAndjuliet.txt 将 存在 于 当前 工作 目录 。 请 注意 ， 虽 然 在 网 站 上 文件 名 是 pg1112.txt， 
但 在 你 的 硬盘 上 ， 该 文件 的 名 字 不 同 。requests 模块 只 \ 处 理 下 载 的 网 页 内容 。 -日 网 页 下 载 
后 ， 它 就 只 是 程序 中 的 数据 。 即 使 在 下 载 该 网 页 后 断 开 了 因特网 连接 ， 该 页 面 的 所 有 数据 仍然 
会 在 你 的 计算 机 中 。 

writel() 方 法 返回 一 个 数字 , 表示 写 入 文件 的 字 节 数 。 在 前 面 的 例子 中 ,第 一 段 包含 100 000 
字 节 ， 文 件 剩 下 的 部 分 只 需要 78 981 字 节 。 

回顾 一 下 ， 下 载 并 保存 到 文件 的 完整 过 程 如 下 。 

1. 调用 requests .get() 下 载 该 文件 。 

2. 用 'wb' 调 用 open()， 以 写 二 进 制 的 方式 打开 一 个 新 文件 。 

3. 利用 Response 对 象 的 iter_content() 方 法 做 循环 。 


12.4 HTML ry 


4. 在 每 次 迭代 中 调用 write()， 将 内 容 写 入 该 文件 。 

5. 调用 close() 关 闭 该 文件 。 

这 就 是 关于 requests 模块 的 全 部 内 容 。 相 对 于 写 入 文本 文件 的 open()/ write()/close() 
工作 步骤 , for 循环 和 iter_content () 的 部 分 可 能 看 起 来 比较 复杂 , 但 这 是 为 了 确保 requests 
模块 即使 下 载 巨大 的 文件 也 不 会 消耗 太 多 内 存 。 


12.4 HTIML 


在 你 拆 解 网 页 之 前 ， 需 要 学 习 一 些 HTML 的 基本 知识 。 你 也 会 看 到 如 何 利用 Web 浏览 器 
的 强大 开发 者 工具 ， 它 们 使 得 从 Web 抓 取信 息 更 容易 。 


12.4.1 学 习 HTML 的 资源 


“ 超 文 本 标记 语言 (HTML)” 是 编写 Web 页 面 的 格式 。 本 章 假定 你 对 HTML 有 一 些 基 本 
经 验 。 


12.4.2 ”快速 复习 


假定 你 有 一 段 时 间 没 有 看 过 HTML 了 , 这 里 是 对 基本 知识 的 快速 复习 。HTML 文件 是 一 个 
纯 文本 文件 ， 带 有 .html 文件 扩展 名 。 这 种 文件 中 的 文本 被 “标签 ”环绕 ， 标签 是 尖 插 号 包围 的 
单词 。 标 签 告 诉 浏览 器 以 怎样 的 格式 显示 该 页 面 。 一 个 开始 标签 和 一 个 结束 标签 可 以 包围 某 段 
文本 ， 形 成 一 个 “元 素 ”。“ 文 本 ”( 或 “内 部 的 HTML”) 是 在 开始 标签 和 结束 标签 之 间 的 内 容 。 
例如 ， 下 面 的 HTML 在 浏览 器 中 显示 Hello, world!， 其 中 Hello 用 粗 体 显示 : 


<strong>Hello</strong>, world! 


这 段 HTML 在 浏览 器 中 看 起 来 如 图 12-1 所 示 。 

开始 标签 <strong> 表 明 标 签 包 围 的 文本 将 使 用 粗 体 ， 结 束 标 签 </strong> 告 诉 浏览 器 粗 
体 文本 到 此 结束 。 

HTML 中 有 许多 不 同 的 标签 。 有 一 些 标签 具有 额外 的 特性 ， 在 尖 括 号 内 以 “属性 ”的 方式 
展现 。 例 如 ，<a> 标 签 包含 一 段 文本 ， 它 应 该 是 一 个 链接 。 这 段 文本 链接 的 URL 是 由 href 属 
性 确定 的 。 下 面 是 一 个 例子 : 


Al's free <a href="https://inv***">Ppython books</a>. 


这 段 HTML 在 浏览 器 中 看 起 来 如 图 12-2 所 示 。 


AGO 从 加 fley/Ccyindexhtml € ~ CG 人 OD fiey/Ccyindexhtml 


Hello, world! Al's free Python books. 


图 12-1 浏览 器 泻 染 的 Hello, world! 图 12-2 浏览 器 中 演 染 的 链接 
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某 些 元 素 具有 id 属性 ， 可 以 用 来 在 页 面 上 唯一 地 确定 该 元 素 。 你 常常 会 告诉 程序 ， 根 据 
元 素 的 id 属性 来 寻找 它 。 所 以 利用 浏览 器 的 开发 者 工具 弄 清楚 元 素 的 id 属性 是 编写 Web 抓 
取 程 序 常见 的 任务 。 


12.4.3 ”查看 网 页 的 HTML 源 代码 


对 于 程序 要 处 理 的 网 页 ， 你 需要 查看 它 的 HTML 源 代 码 。 要 做 到 这 一 点 ， 在 浏览 器 的 任意 网 
页 上 单 击 鼠 标 右键 (或 在 macOS 上 按 快捷 键 Ctrl- 鼠 标 左 键 ), 选择 View Source 或 View page source， 
查看 该 网 页 的 HTML 文本 ， 如 图 12-3 所 示 。 这 是 浏览 器 实际 接收 到 的 文本 。 浏 览 器 知道 如 何 通 过 
这 个 HTML 显示 ( 即 “ 泻 染 ”) 网 页 。 


eh or 


A 


Irs 


图 12-3 ”查看 网 页 的 源 代码 


我 强烈 建议 你 查看 一 些 自己 喜欢 的 网 站 的 HTML 源 代 人 码 。 在 查看 源 代码 时 ， 如 果 你 不 能 完 
全 理解 也 没有 关系 。 你 不 需要 完全 掌握 HTML 也 能 编写 简单 的 Web 抓 取 程 序 ， 毕 竟 你 不 是 要 
编写 目 己 的 网 站 。 不 需要 太 多 的 知识 ， 就 能 从 已 有 的 网 站 中 挑选 数据 。 


12.4.4 打开 浏览 器 的 开发 者 工具 


除了 碍 看 网 页 的 源 代 码 , 你 还 可 以 利用 浏览 器 的 开发 者 工具 来 检查 页 面 的 HTML。 在 Windows 
版 的 Chrome 和 IE 中 ， 开 发 者 工具 已 经 安装 了 。 可 以 按 F12 键 ， 让 它们 出 现 ， 如 图 12-4 所 示 。 再 
次 按 F12 键 , 可 以 让 开发 者 工具 消失 ,在 Chrome 中 ,也 可 以 选择 View y Developer y Developer Tools， 
调 出 开发 者 工具 。 在 macOS 中 按 Command-Option-I 快捷 键 ， 将 打开 Chrome 的 开发 者 工具 。 
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图 12-4 Chrome 浏览 器 中 的 开发 者 工具 窗口 
对 于 Firefox， 可 以 在 Windows 和 Linux 操作 系统 中 按 Ctrl-Shift-C 快捷 键 ， 或 在 macOS 中 按 
Command-option-C 快捷 键 ， 调 出 开发 者 工具 查看 器 。 它 的 布局 几乎 与 Chrome 的 开发 者 工具 一 样 。 
在 Safari 中 , 打开 Preferences 窗口 ， 并 在 Advanced 窗 格 选中 Show Develop menu in the menu 
bar 选项 。 在 它 局 用 后 ， 你 可 以 按 Command-option-I 快捷 键 ， 调 出 开发 者 工具 。 
在 浏览 器 中 局 用 或 安装 了 开发 者 工具 之 后 ， 可 以 在 网 页 中 任何 部 分 单 击 鼠标 右键 ， 在 弹出 
的 菜单 中 选择 Inspect Element， 查 看 页 面 中 这 一 部 分 对 应 的 HTML。 如 果 需 要 在 Web 抓 取 程 序 
中 解析 HTML， 这 很 有 帮助 。 


不 要 用 正则 表达 式 来 解析 HTML 


在 一 个 字符 串 中 定位 特定 的 一 段 HIML， 这 似乎 很 适合 使 用 正则 表达 式 .。 但 是 ， 我 建议 
你 不 要 这 么 做 。 HTML 的 格式 可 以 有 许多 不 同 的 方式 ， 并 且 仍然 被 认为 是 有 效 的 HTML， 但 


尝试 用 正则 表达 式 来 捕捉 所 有 这 些 可 能 的 变化 将 非常 繁琐 ， 并 且 容 易 出 错 。 使 用 专门 用 于 解析 
HTML 的 模块 ， 如 Beautiful Soup， 将 更 不 容易 导致 bug。 

在 Stack Overflow 等 论坛 ， 你 会 看 到 更 充分 的 讨论 ， 从 而 了 解 为 什么 不 应 该 用 正则 表 
达 式 来 解析 HTML. : 


12.4.5 ”使 用 开发 者 工具 来 寻找 HTML 元 素 


程序 利用 requests 模块 下 载 了 一 个 网 页 之 后 , 你 会 得 到 该 页 的 HTML 内 容 , 它 将 是 一 个 
字符 串 值 。 现在 你 需要 弄 清楚 这 段 HTML 的 哪个 部 分 对 应 于 网 页 上 你 感 兴 趣 的 信息 。 这 就 是 可 
以 利用 浏览 器 的 开发 者 工具 的 地 方 。 

假定 你 需要 编写 一 个 程序 , 从 美国 气象 官网 获取 和 天气 预报 数据 。 在 写 代 码 之 前 , 先 做 一 点 调查 。 
如 果 你 访问 该 网 站 ， 并 查找 邮政 编码 94105， 该 网 站 将 打开 一 个 页 面 ， 显 示 该 地 区 的 天 气 预报 。 

如 果 你 想 抓 取 那 个 邮政 编码 对 应 的 气温 信息 ， 怎 么 办 ? 右 击 它 在 页 面 的 位 置 (或 在 macOS 
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上 按 Control- 鼠 标 左 键 )， 在 弹出 的 菜单 中 选择 Inspect Element。 这 将 打开 开发 者 工具 窗口 ， 其 
中 显示 产生 这 部 分 网 页 的 HTML。 图 12-5 所 示 为 开发 者 工具 打开 显示 气温 的 HIML。 请 注意 ， 
如 果 美 国 气象 网 站 改变 了 网 页 的 设计 ， 你 需要 重复 这 个 过 程 来 检查 新 的 元 素 。 
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图 12-5 用 开发 者 工具 查看 包含 气温 文本 的 元 素 


通过 开发 者 工具 , 你 可 以 看 到 网 页 中 负责 气温 部 分 的 HTML 是 <div class= "col-sm-10 
forecast-text">Sunny, with a high near 64. West wind 11 to 16 mph, with gusts 
as high as 21 mph.</div>.。 这 正 是 你 要 找 的 东西 。 看 起 来 气温 信息 包含 在 一 个 <div> 元 
素 中 ， 带 有 forecast-text CSS 类 。 在 浏览 器 的 开发 者 控制 台中 右 击 这 个 元 素 ， 在 出 现 的 菜 
单 中 选择 CopyCSS 选择 器 。 这 将 一 个 类 似 'div.row-odd:nth-child(1) > div:nth- 
child(2)' 这 样 的 字符 串 复制 到 剪贴 板 上 。 你 可 以 将 这 个 字符 串 用 于 Beautiful Soup 的 
select() 或 selenium 的 find element by_css selector() 方 法 ,这 将 在 本 章 后 面 解 释 。 
既然 你 知道 了 要 找 的 是 什么 ，Beautifu1l Soup 模块 就 可 以 帮助 你 在 这 个 字符 串 中 找到 它 。 


12.5 用 bs4 模块 解析 HTML 


Beautiful Soup 是 一 个 模块 ， 用 于 从 HTML 页 面 中 提取 信息 (用 于 这 个 目的 时 ， 它 比 
正则 表达 式 好 很 多 )。Beautiful Soup 模块 的 名 称 是 bs4 (表示 Beautiful Soup 第 4 版 )。 要 安 
装 它 ， 需 要 在 命令 行 中 运行 pip install beautifulsoup4《〈 天 于 安装 第 三 方 模块 的 指导 ， 请 
征用 尖 A》 虽然 安装 时 使 用 的 名 字 是 beautifulsoup4， 但 要 导入 它 ， 就 使 用 import bs4。 

在 本 章 中 ，Beautiful Soup 的 例子 将 解析 〔 即 分 析 并 识别 其 中 的 一 些 部 分 ) 人 硬盘 上 的 一 
个 HTML 文件 。 在 IDLE 中 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 , 并 保存 为 example.html， 


12.5 用 bs4 模块 解析 HTML 221 


或 者 从 异步 社区 本 书 对 应 页 面 下 载 它 : 
<!-- This is the example.html example file. --> 


<html><head><title>The Website Title</title></head> 

<body> 

<p>Download my <strong>Python</strong> book from <a href="https:// 
inv ">my Wwebsite</a>.</p> 

<p class="slogan">Learn Python the easy way!</p> 

<p>By <span id="author">A]l} Sweigart</span></p> 

</body></html> 


你 可 以 看 到 ， 即 使 是 一 个 简单 的 HTML 文件 ， 也 包含 许多 不 同 的 标签 和 属性 。 对 于 复杂 的 
网 站 ， 事 情 很 快 就 变 得 令 人 困惑 。 好 在 ，Beautiful Soup 让 处 理 HTML 变 得 容易 很 多 。 


12.5.1 从 HTML 创建 一 个 BeautifulSoup 对 象 


bs4.BeautifulSoup() 尔 数 调用 时 需要 一 个 字符 串 ， 其 中 包含 将 要 解析 的 HTML。 
bs4.BeautifulSoup() 函 数 返 回 一 个 BeautifulSoup 对 象 。 在 交互 式 环境 中 输入 以 下 代码 ， 
同时 保持 计算 机 与 因特网 的 连接 : 

>>> import requests, bs4 

>>> res = requests.get('https://nosta—') 

>>> res.raise for status!() 

>>> noStarchSoup = bs4.BeautifulSoup(res.text, 'html.parser ') 


>>> type(noStarchSoup) 
<class 'bs4.BeautifulSoup'> 


这 段 代 码 利用 requests .get() 函 数 从 No Starch 出 版 社 网 站 下 载 主 页 ， 然 后 将 响应 结果 
的 text 属性 传递 给 bs4.BeautifulSoup()。 它 返回 的 BeautifulSoup 对 象 保存 在 变量 
noStarchSoup 中 。 

也 可 以 向 bs4.BeautifulSoup() 传 递 一 个 File 对象 ,以 及 第 二 个 参数 ,告诉 Beautiful 
Soup 使 用 哪个 解析 器 来 分 析 HTML。 

在 交互 式 环境 中 输入 以 下 代码 (确保 example.html 文件 在 工作 目录 中 ): 


>>> exampleFile = open('example.html') 

>>> exampleSoup = bs4.BeautifulSoup(exampleFile, ‘html.parser') 
>>> type(exampleSoup) 

<class 'bs4.BeautifulSoup'> 


这 里 使 用 的 'html .parser' 解 析 器 是 Python 自 带 的 。 但 是 ， 如 果 你 安装 了 第 三 方 1xm1 
模块 ， 你 就 可 以 使 用 更 快 的 'l1xm1l' 解 析 器 。 按 照 附录 A 中 的 说 明 , 运行 pip install --user 
1xml 来 安装 这 个 模块 。 如 果 息 记 了 包含 第 二 个 参数 ， 将 导致 UserWarning: No parser was 
explicitly specified warning。 


有 了 BeautifulSoup 对 象 之 后 ， 就 可 以 利用 它 的 方法 ， 定 位 HTML 文档 中 的 特定 部 分 。 
12.5.2 ”用 select() 方 法 寻找 元 素 
调用 一 个 BeautifulSoup 对 象 的 select() 方 法 ， 传 入 一 个 字符 串 作 为 CSS “选择 器 ”*， 
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就 可 以 取得 一 个 Web 页 面 元 素 。 选 择 器 就 像 正则 表达 式 : 它们 指定 了 要 寻找 的 模式 ， 在 这 个 
例子 中 ， 是 在 HTML 页 面 中 寻找 ， 而 不 是 在 普通 的 文本 字符 串 中 寻找 。 

完整 地 讨论 CSS 选择 器 的 语法 超出 了 本 书 的 范围 (在 本 书 的 资源 中 ， 有 很 好 的 选择 器 指 
南 )， 这 里 有 一 份 选择 器 的 简单 介绍 。 表 12-2 举例 展示 了 大 多 数 常 用 CSS 选择 器 的 模式 。 


表 12-2 CSS 选择 器 的 例子 


传递 给 select() 方 法 的 选择 器 将 匹配 …… 
soup.select('div') 所 有 名 为 <div> 的 元 素 
soup.select('#author') 带 有 id 属性 为 author 的 元 素 
soup.select('.notice') 所 有 使 用 CSS class 属性 名 为 notice 的 元 素 
soup.select('div span') 所 有 在 <div> 元 素 之 内 的 <span> 元 素 
soup.select('div > span') 所 有 直接 在 <div> 元 素 之 内 的 <span> 元 素 ， 中间 没有 其 他 元 素 
soup.select('input[name] ') 所 有 名 为 <input>， 并 有 一 个 name 属性， 其 值 无 所 谓 的 元 素 
SOD a0LeGtt inputl type=*button"]') | 并 有 一 个 type 属性 ， 其 值 为 button 的 


不 同 的 选择 器 模式 可 以 组 合 起 来 形成 复杂 的 匹配 。 例 如 ，soup.select('p #author ' ) 
将 匹配 所 有 id 属性 为 author 的 元 素 ， 只 要 它 也 在 一 个 <p> 元 素 之 内 。 你 也 可 以 在 浏览 器 中 石 
击 元 素 ， 选 择 Inspect Element， 而 不 是 自己 编写 选择 器 。 当 浏览 器 的 开发 者 控制 台 打 开 后 ， 右 
键 单 击 元 素 的 HTML， 选 择 Copy CSS Selector， 将 选择 器 字符 串 复制 到 剪贴 析 上 ， 然 后 粘贴 
到 你 的 源 代码 中 。 

Select() 方 法 将 返回 一 个 Tag 对 象 的 列表 ， 这 是 Beautiful Soup 表示 一 个 HTML 元 
素 的 方式 。 针 对 BeautifulSoup 对 象 中 的 HTML 的 每 次 匹配 ， 列 表 中 都 有 一 个 Tag 对 象 。 
Tag 值 可 以 传递 给 str() 函 数 ， 显 示 它 们 代表 的 HTML 标签 。Tag 值 也 可 以 有 attrs 属性 ， 
它 将 该 Tag 的 所 有 HTML 属性 作为 一 个 字典 。 利 用 前 面 的 example.html 文件 , 在 交互 式 环境 中 
输入 以 下 代码 : 


>>> import bs4 

>>> exampleFile = open('example.html') 

>>> exampleSoup = bs4.BeautifulSoup(exampleFile.read(), 'html.parser') 
>>> elems = exampJeSoup.select( '#author ' ) 

>>> type(elems) # elems is a list of Tag objects . 
XCLans "149t"> 

>>> len(elems) 

1 

>>> type(elems[0]) 

<class 'bs4.element.Tag'> 

>>> str(elems[0]) # The Tag object as a Sstring. 
“<Span id="author">Al Sweigart</span>' 

>>> elems[0] .getText() 

'Al Sweigart' 

>>> elems[0] .attrs 

{'id': “author "} 


这 段 代 码 将 带 有 id="author" 的 元 素 从 示例 HTML 中 找 出 来 。 我 们 使 用 select( '#author ' ) 
返回 一 个 列表 ， 其 中 包含 所 有 带 有 id="author" 的 元 素 。 我 们 将 这 个 Tag 对 象 的 列表 保存 在 
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变量 elems 中 ，len(elems) 告 诉 我 们 列表 中 只 有 一 个 Tag 对 象 ， 且 只 有 一 次 匹配 。 在 该 元 素 
上 调用 getText () 方 法 ,以 返回 该 元 素 的 文本 或 内 部 的 HTML。 一 个 元 素 的 文本 是 在 开始 和 结 
束 标签 之 间 的 内 容 : 在 这 个 例子 中 ， 就 是 'Al Sweigart'。 
将 该 元 素 传递 给 str ( )， 以 返回 一 个 字符 串 ， 其 中 包含 开始 和 结束 标签 ， 以 及 该 元 素 的 文 
本 。 最 后 ，attrs 给 了 我 们 一 个 字典 ， 其 中 包含 该 元 素 的 属性 'id'， 以 及 id 属性 的 值 'author'。 
也 可 以 从 BeautifulSoup 对 象 中 找 出 <p> 元 素 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> pElems = exampleSoup.select('p') 

>>> str(pElems[0]) 

‘<p>Download my <strong>Python</strong> book from <a href="https:// 
inv SS ">my website</a>.</p>' 

>>> pElems[0] .getText{) 

‘Download my Python book from my website.' 

>>> str(pElems[1]) 

'<p class="slogan">Learn Python the easy way!</p>' 
>>> pElems[1] .getText() 

"Learn Python the easy way!' 

>>> str(pElems[2]) 

'<p>By <span id="author">Al Sweigart</span></p>' 
>>> pElems{[2] .getText() 

'By Al Sweigart' 


这 一 次 ，select () 给 我 们 一 个 列表 ， 该 列表 包含 3 次 匹配 ， 我 们 将 该 列表 保存 在 pElems 
中 。 在 pElems[0]、pElems[1] 和 pElems[2] 上 使 用 str()， 这 将 每 个 元 素 显示 为 一 个 字符 
串 。 在 每 个 元 素 上 使 用 getText() 以 显示 它 的 文本 。 


12.5.3 ”通过 元 素 的 属性 获取 数据 


Tag 对 象 的 get() 方 法 让 我 们 很 容易 从 元 素 中 获取 属性 值 。 向 该 方法 传 入 一 个 属性 名 称 的 
字符 串 ， 它 将 返回 该 属性 的 值 。 利 用 example.html， 在 交互 式 环境 中 输入 以 下 代码 : 


12 


>>> import bs4 

>>> soup = bs4.BeautifulSoup(open('example.html'), ‘html.parser') 
>>> spanElem = Soup.select('span')[0] 

>>> str(spanElem) 

'<Span id="author">Al Sweigart</span>' 

>>> spanElem.get('id') 

author， 

>>> spanElem.get('some nonexistent _ addr') == None 
True 

>>> spanElem.attrs 

{'id': 'author')} 


这 里 ， 我 们 使 用 select() 来 寻找 所 有 <span> 元 素 ， 然 后 将 第 一 个 匹配 的 元 素 保 存在 
spanElem 中 。 将 属性 名 ' id' 传 递 给 get () 以 返回 该 属性 的 值 'author ' 。 


12.6 项目 : 打开 所 有 搜索 结果 


每 次 我 在 Google 上 搜索 一 个 主题 时 , 不 会 一 次 只 看 一 个 搜索 结果 。 通过 鼠标 中 键 单 击 搜索 
结果 链接 ， 或 在 单 击 时 按 住 Ctrl 键 ， 我 会 在 一 些 新 的 标签 页 中 打开 前 儿 个 链接 以 稍 后 查看 。 我 
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经 常用 Google 搜索 ， 因 此 这 个 工作 流程 〈 开 浏览 器 ， 查 找 一 个 主题 ， 依 次 用 鼠标 中 键 单 击 几 个 
链接 ) 变 得 很 乏味 。 如 果 我 只 要 在 命令 行 中 输入 查找 主题 ， 就 能 让 计算 机 自动 打开 浏览 器 ， 并 
在 新 的 标签 页 中 显示 前 面 几 项 的 查询 结果 ， 那 就 太 好 了 。 让 我 们 写 一 个 脚本 ， 针 对 位 于 PyPI 
官网 的 Python Package Index, 用 它 的 搜索 结果 页 面 来 做 这 个 事情 。 像 这 样 的 程序 可 以 改编 并 运 
用 于 许多 其 他 网 站 ， 尽 管 Google 和 DuckDuckGo 经 常 采 用 一 些 措施 ， 使 其 搜索 结果 页 面 难以 
抓 取 。 

程序 需要 完成 以 下 任务 。 

1. 从 命令 行 参数 中 获取 查询 关键 字 。 

2. 取得 查询 结果 页 面 。 

3. 为 每 个 结果 打开 一 个 浏览 器 标签 页 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 从 sys.argv 中 读 取 命令 行 参 数 。 

2. 用 requests 模块 取得 查询 结果 页 面 。 

3. 找到 每 个 查询 结果 的 链接 。 

4. 调用 webbrowser .open() 国 数 打 开 Web 浏览 占 。 

打开 一 个 新 的 文件 编辑 器 窗口 ， 并 将 其 保存 为 searchpypi.py。 


第 1 步 : 获取 命令 行 参 数 ， 并 请 来 查询 页 面 


在 开始 编码 之 前 ， 你 首先 要 知道 查询 结果 页 面 的 URL。 查 看 浏览 器 地 址 栏 ， 就 会 发 现 结果 页 
面 的 URL 类 似 于 后 绥 为 /search/?q=<SEARCH TERM HERE> 的 PyPI 网 址 。requests 模块 可 以 
下 载 这 个 页 面 ; 然后 可 以 用 Beautiful Sou 模块 找到 HTML 中 的 查询 结果 的 链接 ; 最 后 ， 用 
webbrowser 模块 在 浏览 器 标签 页 中 打开 这 些 链接 。 

让 你 的 代码 看 起 来 像 这样 : 


#! python3 
# Searchpypi.py - Opens several search results . 


import requests, Sys, webbrowser, bs4 


print('Searching...') # display text while downloading the search result page 
res = requests.get('https://go0ogle.com/search?q=" ‘https://p » /search/?q=" 
+ " * ,join(sys.argv!1:])) 


res.raise for _ status!() 

# TODO: Retrieve top search result links. 

# TODO: Open a browser tab for each result. 

用 户 运 行 该 程序 时 ， 将 通过 命令 行 参数 指定 查询 的 主题 。 这 些 参 数 将 作为 字 付 串 保存 在 
sys.argv 列表 中 。 


第 2 步 : 找到 所 有 的 结果 
现在 你 需要 使 用 Beautiful Soup 从 下 载 的 HTML 中 提取 排名 和 菲 前 的 得 询 结 末 链接 。 但 
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如 何 知道 完成 这 项 工作 需要 怎样 的 选择 器 呢 ? 例如 ， 你 不 能 只 查找 所 有 的 <a> 标 签 ， 因 为 在 这 
个 HTML 中 ， 有 许多 链接 你 是 不 关心 的 ， 所 以 必须 用 浏览 器 的 开发 者 工具 来 检查 这 个 查询 结果 
页 面 ， 尝 试 寻找 一 个 选择 器 ， 它 将 挑选 出 你 想 要 的 链接 。 

在 针对 Beautiful Soup 进行 查询 后 ， 你 可 以 打开 浏览 器 的 开发 者 工具 ， 查 看 该 页 面 上 的 一 些 链 
接 元 素 。 它 们 看 起 来 很 复杂 ， 大 概 像 这 样 : <a class="package-snippet" href="HYPERLINK 
"view-source:https://****/project/xml-parser/"/project/xml-parser/">. 

该 元 素 看 起 来 复杂 得 难以 置信 , 但 这 没有 关系 , 只 需要 找到 查询 结果 链接 都 具有 的 模式 即 可 。 

确保 你 的 代码 看 起 来 像 这 样 : 


#! python3 

# Searchpypi.py - Opens several google results. 
import requests, sys, webbrowser, bs4 

--SNip-- 

# Retrieve top search result links. 

soup = bs4.BeautifulSoup(res.text, 'html.parser') 
# Open a browser tab for each result. 

linkElems = soup.select('.package-snippet') 


但 是 ， 如 果 查 看 <a> 元 素 ， 你 就 会 发 现 结果 链接 都 有 class="package-snippet"。 查 看 余 
下 的 HTML 源 代码 ， 看 起 来 package -snippet 类 仅 用 于 查询 结果 链接 。 你 不 需要 知道 CSS 
类 package-snippet 是 什么 ,或 者 它 会 做 什么 。 只 需要 利用 它 作为 一 个 标记 ， 查 找 你 需要 的 
<a> 元 素 。 可 以 通过 下 载 页 面 的 HTML 文本 创建 一 个 BeautifulSoup 对 象 ， 然 后 用 选择 器 
' .package-snippet' 找 到 所 有 具有 CSS 类 package-snippet 的 元 素 中 的 <a> 元 素 。 请 注意 ， 
如 果 PyPI 网 站 改变 了 布局 ， 那 么 你 可 能 需要 更 新 这 个 程序 ， 方 法 是 将 一 个 新 的 CSS 选择 器 字符 串 
传递 给 soup .select () 。 程 序 的 其 余部 分 仍 将 适用 。 


第 3 步 : 针对 每 个 结果 打开 Web 浏览 
最 后 ， 我 们 将 告诉 程序 ， 针 对 结果 打开 Web 浏览 器 标签 页 。 将 下 面 的 内 容 添 加 到 程序 的 末尾 : 


#! python3 
# Searchpypi.py - Opens Several Search results . 
import requests, sys, webbrowser, bs4 
--SNip-- 
# Open a browser tab for each result. 
linkElems = soup.select('.package-snippet') 
numOpen = min(5, len(linkElems)) 
for i in range(numOpen): 
urlToOpen = 'https:// ”+ linkElems[i].get('href') 
print('Opening', urlToOpen) 
webbrowser .open (urlToOpen) 


在 默认 情况 下 , 你 会 使 用 webbrowser 模块 以 在 新 的 标签 页 中 打开 前 5 个 查询 结果 ,但 是 ， 
用 户 查 询 的 主题 可 能 少 于 5 个 查询 结果 。soup.select() 调 用 返回 一 个 列表 , 该 列表 包含 匹配 
' .rr a' 选 择 器 的 所 有 元 素 ， 因 此 打开 标签 页 的 数目 要 么 是 5， 要 么 是 这 个 列表 的 长 度 〈 取 决 于 
哪 一 个 更 小 )。 

内 置 的 Python 函数 min() 人 返回 传 入 的 整 型 或 浮 点 型 参数 中 最 小 的 一 个 (也 有 内 置 的 max() 
图 数 ， 返 回 传 入 的 参数 中 最 大 的 一 个 )。 你 可 以 使 用 min() 卉 清楚 该 列表 中 的 链接 是 否 少 于 5 
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个 ， 并 且 将 要 打开 的 链接 数 保存 在 变量 num0pen 中 。 然 后 可 以 调用 range(num0pen) 来 执行 
一 个 for 循环 。 

在 该 循环 的 每 次 迭代 中 , 你 会 使 用 webbrowser .open() 在 Web 浏览 器 中 打开 一 个 新 的 标 
签 页 。 请 注意 ， 返 回 的 <a> 元 素 的 href 属性 中 不 包含 初始 的 Google 网 址 部 分 ， 因 此 必须 连接 
它 和 href 属性 的 字符 串 。 

现在 可 以 马上 打开 前 5 个 PyPI 查找 结果 ， 例 如 ， 要 查找 boring stuff， 你 只 要 在 命令 
行 中 运行 searchpypi boring stuff! (了 解 如 何在 你 的 操作 系统 中 方便 地 运行 程序 ， 请 参 
看 附录 B)。 


第 4 步 : 类 似 程序 的 想法 


分 标签 页 浏览 的 好 处 在 于 很 容易 在 新 标签 页 中 打开 一 些 链接 ， 可 以 稍 后 绸 来 查看。 一 个 上 自 
动 打开 几 个 链接 的 程序 ， 很 适合 快捷 地 完成 下 列 任务 。 

口 查找 亚马逊 这 样 的 电 商 网 站 后 ， 打 开 所 有 的 产品 页 面 。 

口 打开 针对 一 个 产品 的 所 有 评论 的 链接 。 

口 查找 Flickr 或 Imgur 这 样 的 照片 网 站 后 ， 打 开 查 找 结 果 中 的 所 有 照片 的 链接 。 


12.7 项目: 下 载 所 有 XKCD 漫画 


博客 和 其 他 经 常 更 新 的 网 站 通常 有 一 个 首页 ， 其 中 有 最 新 的 帖子 ， 以 及 一 个 “前 一 篇 ” 按 
钮 ， 将 你 带 到 以 前 的 帖子 。 然 后 那个 帖子 也 有 一 个 “前 一 篇 ”按钮 ， 以 此 类 推 。 这 创建 了 一 条 
线索 ， 可 以 从 最 近 的 页 面 浏览 到 该 网 站 的 第 一 个 帖子 。 

如 果 你 希望 复制 该 网 站 的 内 容 以 在 离线 的 时 候 阅 读 , 那么 可 以 手动 导航 至 每 个 页 面 并 保存 。 
但 这 是 很 无 聊 的 工作 ， 所 以 让 我 们 写 一 个 程序 来 做 这 件 事 。 

XKCD 是 一 个 流行 的 极 客 漫画 网 站 ， 它 符合 这 个 结构 ， 如 图 12-6 所 示 。 官 网 首页 有 一 个 
Prev 按钮 ， 让 用 户 导航 到 前 面 的 漫画 。 手 动 下 载 每 张 漫画 要 花 较 长 的 时 间 , 你 可 以 写 一 个 脚本 ， 
在 几 分 钟 内 完成 这 件 事 。 

程序 需要 完成 以 下 任务 。 

1. 加 载 XKCD 主页 。 

2. 保存 该 页 的 漫画 图 片 。 

3. 转 入 前 一 张 漫画 的 链接 。 

4. 重复 直到 第 一 张 漫 画 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 利用 requests 模块 下 载 页 面 。 

2. 利用 Beautiful Soup 找到 页 面 中 漫画 图 像 的 URL。 

3. 利用 iter_content () 下 载 漫 画图 像 ， 并 保存 到 硬盘 。 

4. 找到 前 一 张 漫 画 的 URL 链接 ， 然 后 重复 。 
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12-6 XKCD,“ 关 于 浪漫 、 讽 刺 、 数 学 和 语言 的 漫画 网 站 ” 
打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 downloadXkcd.py。 
第 1 步 : 设计 程序 


打开 一 个 浏览 器 的 开发 者 工具 ， 检 查 该 页 面 上 的 元 素 ， 你 会 发 现下 面 的 内 容 。 

口 漫画 图 像 文件 的 URL， 由 一 个 <img> 元 素 的 href 属性 给 出 。 

口 <img> 元 素 在 <div id="comic"> 元 素 之 内 。 

口 Prev 按钮 有 一 个 rel HTML 属性 ， 值 是 prev。 

口 第 一 张 漫画 的 Prev 按钮 链接 到 后 缀 为 # URL 的 XKCD 网址， 表明 没有 前 一 个 页 面 了 。 
让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, 0s, bs4 

url = 'https:// Em # starting url 

os.makedirs('xkcd', exist ok=True) # store comics in ./xkcd 

While not url.endswith('#'): 

# TODO: Download the page. 

# TODO: Find the URL of the comic image. 
# TODO: Download the image, 

# TODO: Save the image to ./xkcd. 

# TODO: Get the Prev button's url. 

print('Done.') 

你 会 有 一 个 url 变量 ， 开 始 的 值 是 'http:// '， 然 后 反复 更 新 (在 一 个 for 
循环 中 )， 变 成 当前 页 面 的 Prev 链接 的 URL。 在 循环 的 每 一 步 ， 你 将 下 载 URL 上 的 漫画 。 如 
果 URL 以 '#' 结 束 ， 那 么 你 就 知道 需要 结束 循环 。 

将 图 像 文 件 下 载 到 当前 目录 的 一 个 名 为 xkcd 的 文件 夹 中 。 调 用 os .makedirs1() 函 数 以 确保 
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这 个 文件 夹 存在 。 如 果 文 件 夹 已 经 存在 ， 那 么 关键 字 参 数 exist_ok=True 可 用 于 防止 该 函数 
抛 出 异常 。 剩 下 的 代码 只 是 注释 ， 只 列 出 了 剩 下 程序 的 大 网。 
第 2 步 : 下 载 网 页 

我 们 来 实现 下 载 网 页 的 代码 。 让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, 0s, bs4 
url = 'https:// si es # starting Url 
os.makedirs('xkcd' ,exist ok=True) # Store comics in ./xkcd 
while not url.endswith('#"): 

# Download the page. 

print('Downloading page %s...' % url) 

res = requests.get(url) 

res.raise for status() 

soup = bs4.BeautifulSoup(res.text, 'html.parser') 

# TODO: Find the URL of the comic image. 

# TODO: Download the image. 

# TODO: Save the image to ./xkcd. 

# TODO: Get the Prev button's url. 


print('Done.') 

首先 ， 输 出 url1， 这 样 用 户 就 知道 程序 将 要 下 载 哪 个 URL。 然 后 利用 requests 模块 的 
request.get() 函 数 下 载 它 . 像 以 往 一 样 ,马上 调用 Response 对 象 的 raise_for_status() 
方法 ， 如 果 下 载 发 生 问题 ， 就 抛 出 异常 ， 并 终止 程序 ， 否 则 ， 利 用 下 载 页 面 的 文本 创建 一 个 
BeautifulSoup 对 象 。 


第 3 步 : 寻找 和 下 载 漫画 图 像 
让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, os, bs4 
--SNip-- 


# Find the URL of the comic image. 
comicElem = soup.select('#comic img') 


if comicElem == []: 
print('Could not find comic image.') 
else: 


comicUrl = 'https:' + comicElem[0].get('src’) 
# Download the image. 

print('Downloading image %s...' % (comicUrl)) 
res = requests.get(comicUrl) 
res.raise for status() 
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# TODO: Save the image to ./xkcd . 
# TODO: Get the Prev button's url. 


print('Done.') 


用 开发 者 工具 检查 XKCD 主页 后 ， 你 知道 漫画 图 像 的 <img> 元 素 在 <div> 元 素 中 ，<div> 
带 有 的 id 属性 设置 为 comic。 选 择 器 '#comic img' 将 从 BeautifulSoup 对 象 中 选 出 正确 
的 <img> 元 素 。 

有 一 些 XKCD 页 面 有 特殊 的 内 容 , 不 是 一 个 简单 的 图 像 文件 。 这 没 问题 , 跳 过 它们 就 好 了 。 
如 果 选 择 器 没有 找到 任何 元 素 ， 那 么 soup .select('#comic img' ) 将 返回 一 个 空 的 列表 。 
出 现 这 种 情况 时 ， 程 序 将 输出 一 条 错误 信息 ， 不 下 载 图 像 ， 并 继续 执行 。 

否则 ， 选 择 器 将 返回 一 个 包含 一 个 <img> 元 素 的 列表 。 可 以 从 这 个 <img> 元 素 中 取得 src 
属性 ， 将 src 传递 给 requests .get()， 以 下 载 这 个 漫画 的 图 像 文 件 。 


第 4 步 : 保存 图 像 ， 找 到 前 一 张 漫画 
让 你 的 代码 看 起 来 像 这 样 : 


#! python3 
# downloadXkcd.py - Downloads every single XKCD comic. 


import requests, os, bs4 
--SmnIp-- 


# Save the :image to ./Xxkcd 
imageFile = open(os.path.ijoin('xkcd', os.path.basename(comicUrl)),'wb') 


for chunk in res.iter content(100000): 
imageFile.write(chunk) 
imageFile.close() 
# Get the Prev button's Url. 
prevLink = soup.select('a[relLl="prev"]')[0] 
url = 'https:// wr se..' + prevLink.get('href ') 


print('Done.') 


这 时 ， 漫 画 的 图 像 文件 保存 在 变量 res 中 。 你 需要 将 图 像 数 据 写 入 硬盘 的 文件 。 

你 需要 为 本 地 的 图 像 文件 准备 一 个 文件 名 ， 并 将 其 传递 给 open() 。comicuUrl 的 值 类 似 
'http://imgs.****/comics/heartbleed explanation.png'。 你 可 能 注意 到 ， 它 看 起 
来 很 像 文件 路 径 。 实 际 上 ， 调 用 os .path .basename() 时 传 入 comicUr1， 它 只 返回 URL 的 
最 后 部 分 : 'heartbleed explanation.png'。 当 将 图 像 保 存 到 硬盘 时 ， 你 可 以 用 它 作 为 文 
件 名 。 用 os .path. join() 连 接 这 个 名 称 和 xkcd 文件 夹 的 名 称 ， 这 样 程序 就 会 在 Windows 操 
作 系 统 下 使 用 倒 斜 枉 〈\)， 在 macOS 和 Linux 操作 系统 下 使 用 正 斜 枉 〈/)。 既 然 你 最 后 得 到 了 
文件 名 ， 就 可 以 调用 open( ) ， 并 用 'wb ' 〈 写 二 进 制 ) 模式 打开 一 个 新 文件 。 

回忆 一 下 之 前 的 内 容 , 保存 利用 Requests 下 载 的 文件 时 , 你 需要 循环 处 理 iter_content () 
方法 的 返回 值 。for 循环 中 的 代码 将 一 段 图 像 数 据 写 入 文件 〈 每 次 最 多 10 万 字 节 )， 然 后 关闭 
该 文件 。 图 像 现 在 保存 到 硬盘 。 

选择 器 'a[rel="prev"] ' 识 别 出 rel 属性 中 设置 为 prev 的 <a> 元 素 ， 利 用 这 个 <a> 元 素 
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的 href 属性 可 取得 前 一 张 漫画 的 URL， 然 后 将 它 保存 在 url 中 。 接 着 ，while 循环 针对 这 张 
漫画 ， 再 次 开始 整个 下 载 过 程 。 
这 个 程序 的 输出 看 起 来 像 这 样 : 


Downloading page https:// 20% .。.。 

Downloading image https:// SS %/comics/phone_alarm.png... 
Downloading page https:// 5059 /1358/1... 

Downloading image https://imgs. ww =w Bx/COMICS/NrO.pNg... 
Downloading page https:// or% sw Se/1357/... 

Downloading image https://imgs. Ss 3 /comics/free_speech.png... 
Downloading pace https:// 0.% oY» /1356/... 

Downloading mage https://imgs. Ss /comics/orbital mechanics.png... 


Downloading page https:// Se = /1355/... 

Downloading image https://imgs. .7°/comics/airplane_ message.png... 
Downloading page https:// 33 = Se/1354/... 

Downloading image https://imgs. -w= /comics/heartbleed explanation.png... 
~--SNip-- 


这 个 项 目 是 一 个 很 好 的 例子 ， 说 明 程 序 可 以 自动 顺 着 链接 从 网 络 上 抓 取 大 量 的 数据 。 你 可 
以 从 Beautiful Soup 的 文档 了 解 它 的 更 多 功能 。 


第 5 步 : 类 似 程序 的 想 ; 


下 载 页 面 并 追踪 链接 是 许多 网 络 爬 虫 程序 的 基础 。 类 似 的 程序 也 可 以 做 下 面 的 事情 。 

口 顺 着 网 站 的 所 有 链接 备份 整个 网 站 。 

口 复制 一 个 论坛 的 所 有 信息 。 

口 复制 一 个 在 线 商 店 中 所 有 产品 的 目录 。 

requests 和 bs4 模块 功能 很 强大 ， 只 要 你 能 弄 清楚 需要 传递 给 requests. get() 的 
URL。 但 是 ， 有 时 候 这 并 不 容易 找到 。 或 者 ， 你 希望 编程 浏览 的 网 站 可 能 要 求 你 先 登 录 。 
seleniunm 模块 将 让 你 的 程序 具有 执行 这 种 复杂 任务 的 能 
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seleniunm 模块 可 让 Python 直接 控制 浏览 器 ， 实 现 方法 是 单 击 链接 并 填写 登录 信息 ， 几 乎 
就 像 人 类 用 户 与 页 面 交 互 一 样 。 与 requests 和 bs4 相 比 ，selenium 允许 你 用 高 级 得 多 的 方 
式 与 网 页 交互 。 但 因为 它 启 动 了 Web 浏览 器 , 假如 你 只 是 想 从 网 络 上 下 载 一 些 文件 , 会 有 点 慢 ， 
并 且 难 以 在 后 台 运 行 。 

尽管 如 此 ， 如 果 你 与 网 页 交互 的 方式 依赖 于 更 新 网 页 的 JavaScript 代码 ， 那 么 你 就 需要 
使 用 selenium 而 不 是 requests。 这 是 因为 像 亚马逊 这 样 的 大 型 电 商 网 站 肯定 会 有 软件 系统 
来 识别 他 们 怀疑 是 脚本 的 流量 ， 这 些 脚本 可 能 会 获取 他 们 的 信息 或 注册 多 个 免费 账户 。 这 些 网 
站 可 能 会 在 一 段 时 间 后 拒绝 向 你 提供 页 面 ， 让 你 编写 的 所 有 脚本 失效 。 与 requests 相 比 ， 
seleniunm 模块 在 这 些 网 站 上 长 期 有 效 的 可 能 性 要 大 得 多 。 

向 网 站 “透露 ”你 正在 使 用 脚本 的 一 种 主要 方式 是 user-agent 字符 串 ， 它 标识 了 Web 
浏览 器 ， 并 包含 在 所 有 的 HTTP 请 求 中 。 例 如 ，requests 模块 的 user-agent 字符 串 是 类 似 
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'python-requests/2.21.0' 这 样 的 东西 。 你 可 以 访问 一 个 网 站 查看 你 的 user-agent 字符 
串 。 使 用 selenium， 你 更 有 可 能 “作为 人 类 人 允许 通过 ”， 因 为 selenium 的 user-agent 不 
仅 和 普通 浏览 器 一 样 〈 例 如 ，'Mozilla/5.0 (Windows NT 10 .0; Win64; x64; rv:65.0) 
Gecko/20100101 Firefox/65.0')， 而 且 它 的 流量 模式 也 是 一 样 的 : 一 个 由 selenium 控 
制 的 浏览 器 会 像 普通 浏览 器 一 样 下 载 图 片 、 广 告 、cookie 和 隐私 入 侵 追 踪 器 。 不 过 ，selenium 
仍然 可 以 被 网 站 检测 到 ， 各 大 票务 和 电子 商务 网 站 通常 会 屏蔽 由 seleniunm 控制 的 浏览 器 ， 以 
防止 网 页 被 抓 取 。 


12.8.1 启动 selenium 控制 的 浏览 器 


以 下 例子 将 展示 如 何 控制 FireFox 浏览 器 。 如 果 你 还 没有 FireFox， 可 以 自行 搜索 并 免费 下 
载 它 。 可 以 通过 在 命令 行 窗 口上 执行 pip install --user seleniumf 来 安装 selenium， 
更 多 信息 见 附录 A。 

导入 selenium 的 模块 需要 一 点 技巧 ， 不 是 import selenium， 而 是 要 运行 from 
selenium import webdriver (为 什么 selenium 模块 要 使 用 这 种 方式 导入 ? 答案 超出 了 本 
书 的 范围 )。 

然后 ， 你 可 以 用 selenium 启动 FireFox 浏览 器 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from selenium import webdriver 

>>> browser = Webdriver .Firefox() 

>>> type(browser) 

<class 'selenium.webdriver.firefox.webdriver.WebDriver'> 
>>> browser.get('https://inv****') 


你 会 注意 到 ， 当 webdriver.Firefox() 被 调用 时 ，FireFox 浏览 器 启动 了 。 对 值 
webdriver.Firefox() 调 用 type()， 揭 示 它 具有 WebDriver 数据 类 型 。 调 用 browser. 
get('http://inv****') 将 浏览 器 指 疝 Invent with Python 官网 。 浏览 器 看 起 来 应 该 如 图 12-7 
所 示 。 
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图 12-7 在 Mu 中 调用 webdriver.Firefox() 和 get() 后 ，FireFox 浏览 器 出 现 了 
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如 果 遇 到 错误 信息 “'geckodriver' executable needs to be in PATH.”， 那 么 你 
需要 手动 下 载 Firefox 的 webdriver， 然 后 才能 用 selenium 来 控制 它 。 如 果 你 安装 了 Firefox 以 
外 的 浏览 器 ，selenium 也 可 以 控制 其 他 浏览 器 。 

对 于 Firefox， 请 在 GitHub 中 搜索 mozilla/geckodriver/releases， 然 后 下 载 你 的 操作 系统 的 
geckodriver。(“Gecko” 是 Firefox 中 使 用 的 浏览 器 引擎 的 名 称 。) 例如 ， 在 Windows 操作 系统 
中 , 需要 下 载 geckodriver-v0.24.0-win64.zip; 在 macOS 中 , 需要 下 载 geckodriver-v0.24.0- macos.tar. 
gz。 较 新 版 本 的 名 字 会 有 稍微 不 同 。 下 载 的 ZIP 文件 将 包含 一 个 geckodriver.exe (在 Windows 
操作 系统 上 ) 或 geckodriver (在 macOS 和 Linux 操作 系统 上 ) 文件 ， 你 可 以 把 它 放 在 系统 的 
PATH 路 径 上 。 附 录 B 有 关于 系统 PATH 的 信息 。 

对 于 Chrome 浏览 器 ， 请 访问 ChromePriver 下 载 页 面 以 下 载 你 的 操作 系统 的 ZIP 文件 。 这 个 
ZIP 文件 将 包含 一 个 chromedriver.exe (在 Windows 操作 系统 上 ) 或 chromedriver (在 macOS 或 
Linux 操作 系统 上 ) 文件 ， 可 以 将 它 放 在 系统 的 PATH 路 径 上 。 

其 他 主要 的 网 络 浏览 器 也 有 webdriver， 可 以 通过 在 因特网 上 搜索 “< 浏览 器 名 称 > 
webdriver” 来 找到 。 

如 果 你 在 selenium 的 控制 下 打开 新 的 浏览 器 仍然 有 问题 ， 可 能 是 因为 当前 版 本 的 浏览 器 
与 selenium 模块 不 兼容 。 一 种 解决 方法 是 安装 一 个 旧版 本 的 浏览 器 ， 或 者 更 简单 地 说 ， 安 装 
一 个 旧版 本 的 selenium 模块 。 你 可 以 在 PyPI 官网 上 找到 selenium 版 本 号 列表 。 不 地 的 是 ， 
selenium 和 浏览 器 的 版 本 之 间 的 兼容 性 有 时 会 失效 , 你 也 许 需 要 在 网 上 搜索 可 能 的 解决 方案 。 
附录 A 有 更 多 关于 运行 pip 来 安装 特定 版 本 的 selenium 的 信息 。( 例 如 ， 你 可 以 运行 pip 


install -USer =U selenium==3.14.1.) 


12.8.2 ”在 页 面 中 寻找 元 素 


WebDriver 对 象 有 好 几 种 方法 用 于 在 页 面 中 寻找 元 素 。 它 们 被 分 成 find_ element_* 和 
find elements_* 方 法 。find_element_* 方 法 返回 一 个 WebElement 对 象 ， 代 表 页 面 中 匹 
配 查询 的 第 一 个 元 素 。find_elements_* 方 法 返回 WebElement_* 对 象 的 列表 ， 包 含 页 和 面 中 
所 有 匹配 的 元 素 。 

表 12-3 展示 了 find element_* 和 find elements_* 方 法 的 几 个 例子 ， 它 们 在 变量 
browser 中 保存 的 WebDriver 对 象 上 调用 。 

表 12-3 selenium 的 WebDriver 方法 ， 用 于 寻找 元 素 


方法 名 返回 的 WebElement 对 象 /列表 


browser .find element by class_name (mame ) 号 

”一 一 “一 本 CSS 类 na 元 系 
browser .find elements by class name (name) 全 和 ae 个 元 村 
browser .find element by css selector(selector) 


i 匹配 CSS selector 的 元 素 
browser .find elements by css selector(selector) 配 ctor 的 元 素 


browser .find element by_ id!(idg) 
browser .find elements by _id(Id ) 


匹配 id 属性 值 的 元 素 
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续 表 
方法 名 返回 的 WebElement 对 象 /列表 


browser .find element by link text(text) 


browser.find elements by_link text(text) 完全 匹配 提供 的 text 的 <a> 元 素 


browser .find element by partial link text(text) 


browser.find_elements_ by partial link text(text) 包含 提供 的 text 的 <a> 元 素 
browser .find element_ by_name (name) 

browser .find elements_by_name (name) 匹配 name 属性 值 的 元 素 

browser .find element by tag name(name) 匹配 标签 name 的 元 素 

browser .find elements_by_tag_name (name) (大 小 写 不 敏感 ，<a> 元 素 匹 配 'a' 和 'A') 


除了 *_by_tag_name() 方 法 ， 所 有 方法 的 参数 都 是 区 分 大 小 写 的 。 如 果 页 面 上 没有 元 素 
可 匹配 该 方法 要 得 找 的 元 素 ， 那 么 selenium 模块 就 会 抛 出 NoSuchElement 异常 。 如 果 你 不 
希望 这 个 异常 让 程序 崩溃 ， 就 在 代码 中 添加 try 和 except 语句 。 

一 旦 有 了 WebElement 对 象 ， 就 可 以 读 取 表 12-4 中 的 属性 ， 或 调用 其 中 的 方法 ， 并 了 解 
它 的 更 多 功能 。 


表 12-4 WebElement 的 属性 和 方法 


属性 或 方法 描述 
tag_name 标签 名 ， 例 如 'a ' 表 示 <a> 元 素 
get attribute(name) 该 元 素 name 属性 的 值 
text 该 元 素 内 的 文本 ， 例 如 <span>hello</span> 中 的 'hello' 
clear() 对 于 文本 字段 或 文本 区 域 元 素 ， 清 除 其 中 输入 的 文本 
is_displayed!() 如 果 该 元 素 可 见 ， 返 回 True; 否则 返回 False 
is enabled!() 对 于 输入 元 素 ， 如 果 该 元 素 启用 ， 返 回 True; 否则 返回 False 
is selected!() 对 于 复 选 框 或 单 选 按钮 元 素 ， 如 果 该 元 素 被 勾 选 ， 返 回 True; 否则 返回 False 
location 一 个 字典 ， 包 含 键 'x' 和 'y'， 表 示 该 元 素 在 页 面 上 的 位 置 


例如 ， 打 开 一 个 新 的 文件 编辑 器 ， 输 入 以 下 程序 : 


from selenium import webdriver 
browser = webdriver.Firefox!() 


browser.get('https://inNV ss mm ?” ) 
TY 

elem = browser.find element by class name(' cover-thumb ' ) 

print('Found <%s> element with that class name!' % (elem.tag name)) 
except: 


print('Was not able to find an element with that name.') 


这 里 我 们 打开 FireFox， 让 它 指 向 一 个 URL。 在 这 个 页 面 上 ， 我 们 试图 找到 带 有 类 名 
'cover -thumb ' 的 元 素 。 如 果 找 到 这 样 的 元 素 ， 我 们 就 用 tag_name 属性 将 它 的 标签 名 输出 。 
如 果 没 有 找到 这 样 的 元 素 ， 就 输出 不 同 的 信息 。 

这 个 程序 的 输出 结果 如 下 : 


Found <img> element with that class name! 
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我 们 发 现 了 一 个 元 素 带 有 类 名 'cover-thumb'， 它 的 标签 名 是 'img'。 


12.8.3 ” 单 击 页 面 


find element _* 和 find_elements_* 方 法 返回 的 WebElement 对 象 有 一 个 click() 
方法 ， 用 于 模拟 鼠标 在 该 元 素 上 单 击 。 这 个 方法 可 以 用 于 链接 跳 转 、 单 击 单 选 按钮 、 单 击 提交 
按钮 ， 或 者 触发 该 元 素 被 鼠标 单 击 时 发 生 的 任何 事情 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from selenium import webdriver 

>>> browser = webdriver.Firefox() 

>>> browser.get('https://inV cms ~ We 2 ) 

>>> linkElem = browser.find element by link text('Read Online for Free') 
>>> type(linkElem) 

<class 'selenium.webdriver.remote.webelement.FirefoxWebElement'> 

>>> linkElem.click() # follows the “Read Online for Free" link 


这 段 程序 用 于 打开 FireFox， 指 向 Invent with Python 官网 ， 并 取得 <a> 元 素 的 WebElement 
对 象 ， 它 的 文本 是 “Read Online for Free”， 然 后 模拟 单 击 这 个 元 素 。 就 像 你 自己 单 击 这 个 链接 
一 样 ， 浏 览 器 将 跳 转 到 这 个 链接 。 


12.8.4 ”填写 并 提交 表单 


要 向 Web 页 面 的 文本 字段 发 送 按键 事件 信息 ， 只 要 找到 那个 文本 字段 的 <input> 或 
<textarea> 元 素 ， 然 后 调用 send_ keys ( ) 方 法 即 可 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from Selenium import webdriver 

>>> browser = Webdriver .Firefox() 

>>> browser.get('https://logi ez. we 3') 

>>> userElem = browser.find element by _ id('user_ name) 
>>> userElem.send keys('your real vsername here') 


>>> passwordElem = browser.find element by _ id('user pass') 
>>> passwordElem.send keys('your real password here') 
>>> passwordElem.submit() 


只 要 MetaFilter 的 登录 页 面 没有 在 本 书 出 版 后 改变 Usemame 和 Password 文本 字段 的 id， 
那么 上 面 的 代码 就 会 用 提供 的 文本 填写 这 些 文本 字段 (你 总 是 可 以 用 浏览 器 的 开发 者 工具 验证 
id)。 在 任何 元 素 上 调用 submit ( ) 方 法 ， 都 等 同 于 单 击 该 元 素 所 在 表单 的 Submit 按钮 (你 可 以 
很 容易 地 调用 emailElem.submit()， 代 人 码 所 做 的 事情 一 样 )。 


警告 ， 尽 可 能 地 避免 将 口令 放 在 源 代码 中 。 当 你 的 口令 未 加 密 而 存放 在 硬盘 上 时 ,很 容 为 不 小 心 泄露 给 
他 人 。 如 果 可 能 ,请 让 你 的 程序 使 用 第 8 章 中 描述 的 pyinputplus. inputPasswordO 函 数 来 提示 用 户 从 
键盘 上 输入 口令 。 


12.8.5 ”发送 特 殊 键 


selenium 有 一 个 模块 , 针对 不 能 用 字符 串 值 输入 的 键盘 按键 。 它 的 功能 非常 类 似 于 转 义 字符 。 
这 些 值 保 存在 selenium.webdriver.common.keys 模块 的 属性 中 。 因 为 这 个 模块 名 非常 长 ， 所 
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以 可 以 在 程序 顶部 运行 from selenium.webdriver. common.keys import Keys 导入 模块 ， 
这 样 原来 需要 写 selenium. webdriver. common .keys 的 地 方 ， 就 只 需 写 Keys。 表 12-5 列 出 
了 常用 的 Keys 属性 。 


表 12-5 selenium.webdriver.common .keys 模块 中 常用 的 属性 


属性 含义 
Keys .DOWN, Keys.UP, Keys.LEFT,Keys.RIGHT 键盘 箭头 键 
Keys .ENTER, Keys.RETURN 回 车 和 换行 键 


Keys .HOME, Keys .END, 


Keys .PAGE_DOWN, Keys .PAGE_UP Home 键 、End 键 、PageUp 和 Page Down 刍 


Keys .ESCAPE, Keys.BACK SPACE,Keys .DELETE Esc 键 、Backspace 键 和 Delete 键 
Keys.F1, Keys.F2,..., Keys.F12 键盘 顶部 的 Fl 到 F12 键 
Keys .TAB Tab 键 


例如 ， 如 果 光 标 当 前 不 在 文本 字段 中 ， 按 Home 键 和 End 键 将 使 浏览 器 滚动 到 页 面 的 顶部 
或 底部 。 在 交互 式 环境 中 输入 以 下 代码 ， 注 意 send_keys() 调 用 是 如 何 滚动 页 面 的 : 


>>> from Selenium import webdriver 

>>> from Selenium.wWebdriver .common .keys import Keys 

>>> browser = webdriver.Firefox() 

>>> browser.get('https://no****") 

>>> htmlElem = browser.find element by tag name('html') 
>>> htmlElem.send keys(Keys .END) # scrolls to bottom 
>>> htmlElem,.send keys(Keys .HOME) # scrolls to top 


<html> 标 签 是 HTML 文件 中 的 基本 标签 :HTML 文件 的 完整 内 容 包 含 在 <htm1> 和 </html> 
标签 之 内 。 调 用 browser.find element by _tag_name('html') 是 向 一 般 Web 页 面 发 送 按 
键 的 好 方法 。 当 深 动 到 该 页 的 底部 ， 新 的 内 容 就 会 加 载 ， 这 可 能 会 有 用 。 
12.8.6 ” 单 击 浏览 器 按钮 


利用 以 下 的 方法 ，selenium 也 可 以 模拟 单 击 各 种 浏览 器 按钮 。 
口 browser .back() 单 击 “ 返 回 ” 按 钮 。 

口 browser.forward() 单 击 “ 前 进 ” 按 钮 。 

口 browser .refresh() 单 击 “ 刷 新 ”按钮 。 

口 browser .quit () 单 击 “ 关 闭 窗 口 ”按钮 。 


12.8.7 关于 selenium 的 更 多 信息 


selenium 能 做 的 事 远 远 超 出 了 这 里 所 描述 的 。 它 还 可 以 修改 浏览 器 的 cookie， 截 取 页 面 快照 ， 
以 及 运行 定制 的 JavaScript。 要 了 解 这 些 功 能 的 更 多 信息 ， 请 参考 selenium 的 技术 文档 。 


12.9 小结 
大 多 数 索 琐 的 任务 并 个 限于 操作 你 计算 机 中 的 文件 。 编 程 下 载 网 页 可 以 让 你 的 程序 扩展 到 
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因特网 。requests 模块 让 下 载 变 得 很 简单 ， 加 上 HTML 的 概念 和 选择 器 的 基本 知识 ， 你 就 可 
以 利用 Beautiful Soup 模块 解析 下 载 的 网 页 了 。 

但 要 全 面 自动 化 所 有 针对 网 页 的 任务 ， 你 需要 利用 selenium 模块 直接 控制 Web 浏览 
器 。selenium 模块 将 允许 你 自动 登录 到 网 站 并 填写 表单 。 因 为 使 用 Web 浏览 器 是 在 因 特 
网 上 收发 信息 的 最 常见 方式 ， 所 以 这 是 程序 员工 具 箱 中 一 件 了 不 起 的 工具 。 


12.10 “习题 


. 简单 描述 webbrowser、requests、BeautifulSoup 和 selenium 模块 之 间 的 不 同 。 
requests.get() 返 回 哪 种 类 型 的 对 象 ? 如 何以 字符 串 的 方式 访问 下 载 的 内 容 ? 
哪个 requests 方法 用 于 检查 下 载 是 否 成 功 ? 
如 何 取得 requests 响应 的 HTTP 状态 码 ? 
、， 如 何 将 requests 响应 保存 到 文件 ? 
.打开 浏览 器 的 开发 者 工具 的 快捷 键 是 什么 ? 
.在 开发 者 工具 中 ， 如 何 查 看 页 面 上 特定 元 素 的 HTML? 
.要 找到 id 属性 为 main 的 元 素 ，CSS 选择 器 的 字符 串 是 什么 ? 

9. 要 找到 CSS 类 为 highlight 的 元 素 ，CSS 选择 器 的 字符 串 是 什么 ? 

10. 要 找到 一 个 <div> 元 素 中 所 有 的 <div> 元 素 ，CSS 选择 器 的 字符 串 是 什么 ? 

.要 找到 一 个 <button> 元 素 ， 且 它 的 value 属性 被 设置 为 favorite，CSS 选择 器 的 

i 

12. 假定 你 有 一 个 Beautiful Soup 的 Tag 对 象 保存 在 变量 spam 中 ， 针 对 的 元 素 是 
<div>Hello，world!</div>。 如 何 从 这 个 Tag 对 象 中 取得 字符 串 'Hello world!'? 

13. 如 何 将 一 个 Beautiful Soup 的 Tag 对 象 的 所 有 属性 保存 到 变量 LinkElem 中 ? 

14. 运行 jmport selenium 没有 效果 。 如 何 正 确 地 导入 selenium 模块 ? 

15. find element * 和 find elements_* 方 法 之 间 的 区 别 是 什么 ? 

16. selenium 的 WebElement 对 象 有 哪些 方法 来 模拟 鼠标 单 击 和 键盘 按键 ? 

17. 你 可 以 在 Submit 按钮 的 WebElement 对 象 上 调用 send_keys (Keys .表达 式 ENTER ) ， 
但 利用 selenium 还 有 什么 更 容易 的 方法 提交 表单 ? 

18. 利用 selenium 如 何 模拟 单 击 浏览 器 的 “前 进 ”“ 返 回 ” 和 “刷新 ”按钮 ? 


12.11 实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 
12.11.1 命令 行 电子 邮件 程序 


编写 一 个 程序 ， 通 过 命令 行 接收 电子 邮件 地 址 和 文本 字符 串 。 然 后 利用 selenium 登录 到 你 
的 电子 邮件 账号 ， 将 该 字符 串 作 为 邮件 ， 发 送 到 提供 的 地 址 (你 也 许 希望 为 这 个 程序 建立 一 个 
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独立 的 电子 邮件 账号 )。 

这 是 为 程序 添加 通知 功能 的 一 种 好 方法 。 你 也 可 以 编写 类 似 的 程序 ， 从 Facebook 或 Twitter 
账号 发 送 消 息 。 
12.11.2 图像 网 站 下 载 


编写 一 个 程序 ， 功 能 访问 图 像 共享 网 站 〈 如 Flickr 或 Imgur)， 查 找 某 个 类 型 的 照片 ， 然 后 
下 载 所 有 碍 询 结果 的 图 像 。 可 以 编写 一 个 程序 ， 访 问 任何 具有 查找 功 能 的 图 像 网 站 。 


12.11.3 2048 


2048 是 一 个 简单 的 游戏 ， 通 过 箭头 向 上 、 下 、 左 、 右 移动 滑 块 ， 让 滑 块 合并 。 实 际 上 ， 你 
可 以 通过 一 人 遍 一 遍地 重复 “上 、 右 、 下 、 左 ”模式 ， 获 得 相当 高 的 分 数 。 编 写 一 个 程序 ， 打 开 
GitHub 上 的 2048 游戏 ， 不 断 发 送 向 上 、 右 、 下 、 左 移动 滑 块 的 命令 来 自动 玩 游戏 。 


12.11.4 ”链接 验证 


编写 一 个 程序 ， 对 给 定 的 网 页 URL， 下 载 该 页 面包 含 的 所 有 链接 的 页 面 。 程 序 应 该 标记 出 
所 有 具有 “404Not Found” 状 态 码 的 页 面 ， 并 将 它们 作为 坏 链 接 输出 。 


处 理 Excel 电 子 表格 


虽然 我 们 通常 不 会 把 电子 表格 当成 编程 工具 ， 但 是 很 多 人 都 会 使 用 它 
们 ， 以 将 信息 组 织 到 二 维 数 据 结构 中 ， 并 用 公式 进行 计算 ， 然 后 以 图 表 的 形 
式 输出 。 在 接 下 来 的 两 章 中 ， 我 们 将 Python 与 两 个 流行 的 电子 表格 应 用 程 
序 : Microsoft Excel 和 Google Sheets 集成 。 

Excel 是 一 款 流行 的 、 功 能 强大 的 Windows 电子 表格 应 用 程序 -openpyxl 
模块 允许 你 的 Python 程序 读 取 和 修改 Excel 电子 表格 文件 。 例 如 ， 你 可 能 
有 一 个 枯燥 的 任务 , 那 就 是 从 一 个 电子 表格 中 复制 某 些 数据 并 粘贴 到 另 一 个 
电子 表格 中 。 或 者 你 可 能 需要 翻阅 成 千 上 万 的 行 , 然后 根据 一 些 标 准 挑选 出 
其 中 的 一 小 部 分 , 并 进行 一 些小 修改 。 或 者 你 可 能 要 翻阅 数 百 个 部 门 预算 的 
电子 表格 ， 寻 找 所 有 包含 赤字 的 电子 表格 。 这 些 正 是 Python 可 以 为 你 做 的 
那 种 繁琐 的 、 没 有 技术 含量 的 电子 表格 任务 。 

虽然 Excel 是 微软 公司 的 专 有 软件 ， 但 也 有 免费 的 替代 品 ， 它 们 可 以 在 Windows 操作 系统 、 
macOS 和 Linux 操作 系统 上 运行 。 LibreOffice Calc 和 OpenOffice Calc 都 可 以 处 理 Excel 的 .xlsx 文件 
格式 的 电子 表格 ,这 意味 着 0penpyXx1l 模块 也 可 以 在 这 两 个 应 用 程序 的 电子 表格 上 工作 。 如 果 你 的 
计算 机 上 已 经 安装 了 Excel， 你 可 能 会 发 现 这 两 个 程序 更 容易 使 用 。 但 本 章 中 的 屏幕 截图 都 是 来 自 
Windows 10 操作 系统 上 的 Excel 2010。 


加 下 加 
13.1 “Excel 文档 
国 心 四 


首先 ， 让 我 们 来 看 一 些 基本 定义 。 一 个 Excel 电子 表格 文档 称 为 一 个 “ 工 。 视频 讲解 
作 短 "。 一 个 工作 短 保 存在 扩展 名 为 xlsx 的 文件 中 。 每 个 工作 短 可 以 包含 多 个 
“ 表 ”( 也 称 为 “工作 表 ”)。 用 户 当前 查看 的 表 (或 关闭 Excel 前 最 后 查看 的 表 ) 称 为 “活动 表 ”。 
每 个 表 都 有 一 些 “ 列 ”( 地 址 是 从 A 开始 的 字母 ) 和 一 些 “ 行 ”( 地 址 是 从 1 开始 的 数字 )。 
处 于 特定 行 和 列 的 方 格 称 为 “单元 格 ”。 每 个 单元 格 包含 一 个 数字 或 文本 值 , 或 者 是 空白 。 单 元 
格 形成 的 网 格 和 数据 构成 了 表 


my Se 


13.2 ”安装 openpyxl 模块 


Python 没有 自 带 openpyx1， 所 以 必须 安装 。 请 按照 附录 A 中 安装 第 三 方 模块 的 说 明 来 安 
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装 。 模 块 的 名 称 是 openpyx1。 

本 书 使 用 的 是 openpyx1 的 2.6.2 版 本 。 重 要 的 是 , 你 必须 通过 运行 pip install - -user --U 
openpyx1==2.6.2 来 安装 这 个 版 本 ， 因 为 较 新 版 本 的 openpyx1 与 本 书 中 的 信息 不 兼容 。 要 测试 
它 是 否 安装 正确 ， 就 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyxl 
如 果 该 模块 正确 安装 ， 就 不 会 产生 错误 信息 。 记 得 在 运行 本 章 的 交互 式 环境 例子 之 前 ， 要 导入 
openpyx1l 模块 ， 否 则 会 出 现 错误 NameError: name “openpyxl'is not defined。 


13.3 ” 读 取 Excel 文档 


本 章 的 例子 将 使 用 一 个 电子 表格 example.xlsx， 它 保存 在 根 文件 夹 中 。 你 可 以 自己 创建 这 
个 电子 文档 , 或 从 异步 社区 本 书 对 应 页 面 下 载 。 图 13-1 
所 示 为 3 个 默认 的 表 ， 名 为 Sheet1、Sheet2 和 Sheet3， 
这 是 Excel 自动 为 新 工作 簿 提供 的 (在 不 同 操作 系统 和 
电子 表格 程序 中 ， 提 供 的 默认 表 个 数 可 能 会 不 同 )。 


示例 文件 中 的 Sheet 1 应 该 如 表 13-1 所 示 (如果 E23 
你 没有 从 网 站 下 载 example.xlsx， 就 要 在 工作 表 中 自 图 13-1 工作 簿 中 表 的 标签 页 
己 输 入 这 些 数据 )。 在 Excel 的 左下 角 
表 13-1 example.xlsx 电子 表格 
A B C 
1 4/5/2015 1:34:02 PM Apples 73 
2 4/5/2015 3:41:23 AM Cherries 85 
3 4/6/2015 12:46:51 PM Pears 14 
4 4/8/2015 8:59:43 AM Oranges $52 
5 4/10/2015 2:07:00 AM Apples 152 
6 4/10/2015 6:10:37 PM Bananas 23 
7 4/10/2015 2:40:46 AM Strawberries 98 


既然 有 了 示例 电子 表格 ， 就 来 看 看 如 何 用 openpyx1l 模块 来 操作 它 。 
13.3.1 用 openpyxl 模块 打开 Excel 文档 


在 导入 openpyx1l 模块 后 ， 就 可 以 使 用 openpyx1.1oad workbook() 函 数 了 。 在 交互 式 
环境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyxl1.load workbook('example.xlsx') 
>>> type(wb) 

<class ‘openpyxl .workbook .workbook .Workbook '> 


openpyx1.1oad_workbook () 图 数 接收 文件 名 ， 并 返回 一 个 workbook 数据 类 型 的 值 。 
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这 个 Workbook 对 和 象 代表 这 个 Excel 文件 ， 这 有 点 儿 类 似 于 File 对 象 代表 一 个 打开 的 文本 文件 。 
要 记 住 ，examplexlsx 必须 在 当前 工作 目录 中 ， 你 才能 处 理 它 。 可 以 导入 os， 使 用 函数 
os .getcwd( ) 弄 清楚 当前 工作 目录 是 什么 ， 并 使 用 os.chdir() 改 变 当 前 工作 目录 。 


13.3.2 ”从 工作 秒 中 取得 工作 表 
访问 sheetnames 属性 可 以 取得 工作 敌 中 所 有 表 名 的 列表 .在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyx1l.load workbook('example.xlsx’') 

>>> Wb .sheetnames # The workbook's sheets' names. 
['Sheet1', 'Sheet2', 'Sheet3 ' ] 

>>> sheet = wb['Sheet3'] # Get a Sheet from the workbook . 
>>> Sheet 

<Worksheet “Sheet3 "> 

>>> type(sheet) 

<class 'openpyxl.worksheet.worksheet.Worksheet'> 

>>> Sheet.title # Get the sheet's title as a string. 
'Sheet3' 

>>> anotherSheet = wb.active # Get the active Sheet. 
>>> anotherSheet 

<Worksheet “Sheet1 "> 


每 个 表 由 一 个 Worksheet 对 象 表示 ， 取 得 它 的 方法 是 使 用 带 方 括号 的 工作 表 名 称 字 符 串 ， 这 和 
取得 字典 的 键 一 样 。 最 后 ， 可 以 使 用 Workbook 对 象 的 active 属性 来 取得 工作 短 的 活动 表 。 在 取 
得 Worksheet 对 象 后 ， 可 以 通过 title 属性 取得 它 的 名 称 。 


13.3.3 ”从 表 中 取得 单元 格 
有 了 Worksheet 对 象 后 ， 就 可 以 按 名 字 访 问 Cell 对 象 。 在 交互 式 环 境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyxl.1load workbook('example.xlsx') 

>>> sheet = wbi'Sheet1'] # Get a sheet from the workbook. 
>>> Sheet['A1'] # Get a cell from the sheet. 

<Cell 'Sheet1° .A1> 

>>> sheet['A1'].value # Get the value from the cell. 
datetime.datetime(2015, 4, 5, 13, 34, 2) 

>>> C = sheet['B1'] # Get another cell from the sheet. 
>>> Cc.value 

'Apples' 

>>> # Get the row, column, and value from the cell. 
>>> 'Row %s, Column %s is %s' % (Cc.row, Cc.column, c.value) 
'Row 1, Column B is Apples' 

>>> “Cell %s is %s' % (c.coordinate, Cc.value) 

'Cell B1 is Apples' 

>>> Sheet['Cc1 ].value 

73 


Cell 对 象 有 一 个 value 属性 , 它 包 含 这 个 单元 格 中 保存 的 值 .Cel1 对 象 也 有 row、column 
和 coordinate 属性 ， 可 以 提供 该 单元 格 的 位 置信 息 。 

这 里 ， 访 问 单元 格 Bl 的 Cell 对 象 的 value 属性 ， 我 们 得 到 字符 串 'Apples' 。row 属性 给 出 
的 是 整数 1，column 属性 给 出 的 是 'B'，coordinate 属性 给 出 的 是 'B1 ' 。 
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openpyxl 将 自动 解释 列 A 中 的 日 期 ， 将 它们 返回 为 datetime 值 ， 而 不 是 字符 串 。 
datetime 数据 类 型 将 在 第 17 章 中 进一步 解释 。 

用 字母 来 指定 列 , 这 在 程序 中 可 能 有 点 儿 奇 怪 , 特别 是 在 Z 列 之 后 , 列 开始 使 用 两 个 字母 : 
AA、AB、AC 等 表示 。 作 为 替代 ， 在 调用 表 的 cel1() 方 法 时 ， 传 入 整数 作为 该 方法 的 row 和 
column 关键 字 参 数 ， 这 样 也 可 以 得 到 一 个 单元 格 。 第 一 行 或 第 一 列 的 整数 是 1， 不 是 0。 输 入 
以 下 代码 ， 继 续 演 示 交 互 式 环境 的 例子 : 


>>> sheet.cell(row=1, column=2) 

<Cell 'Sheet1' .B1> 

>>> sheet.cell(row=1, column=2) .value 

'Apples' 

>>> for i in range(1, 8, 2): # Go through every other row: 
print(i, sheet.cell(row=i, column=2) .value) 


1 Apples 

3 Pears 

5 Apples 

7 Strawberries 


可 以 看 到 , 使 用 表 的 cel1( ) 方 法 , 并 传 入 row=1 和 column=2, 将 得 到 单元 格 Bl 的 Cell 
对 象 ， 就 像 指 定 sheet['B1'] 一 样 。 然 后 ， 利 用 ce11( ) 方 法 和 它 的 关键 字 参 数 ， 就 可 以 编写 
for 循环 以 输出 一 系列 单元 格 的 值 。 

假定 你 想 顺 着 B 列 输 出 所 有 奇数 行 单 元 格 的 值 。 通 过 传 入 2 作为 range() 函 数 的 “ 步 长 ” 
参数 ， 可 以 取得 每 隔 一 行 的 单元 格 〈 在 这 里 就 是 所 有 奇数 行 )。for 循环 的 i 变量 被 传递 作为 
cel1() 方 法 的 row 关键 字 参 数 ， 而 column 关键 字 参 数 总 是 取 2。 请 注意 传 入 的 是 整数 2， 而 
不 是 字符 串 'B ' 。 

可 以 通过 Worksheet 对 象 的 max_row 和 max_column 属性 来 确定 表 的 大 小 。 在 交互 式 环 
境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyxl.load workbook('example.xlsx') 

>>> Sheet = wb['Sheet1'] 

>>> sheet.max row # Get the highest row number. 

7 

>>> sheet.max column # Get the highest column number. 
3 


请 注意 ，max_column 属性 是 一 个 整数 ， 而 不 是 Excel 中 出 现 的 字母 。 
13.3.4” 列 字母 和 数字 之 间 的 转换 


要 从 字母 转换 到 数字 , 就 调用 openpyxl.utils.column_ index from_string() 函 数 。 
要 从 数字 转换 到 字母 ， 就 调用 openpyx1l.utils.get column 1letter() 函 数 。 在 交互 式 环 
境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> from openpyxl.utils import get column letter, column index from string 
>>> get column letter(1) # Translate column 1 to a letter. 

>>> get column letter (2) 
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. B' 

>>> get_ column_letter(27) 

'AA!' 

>>> get column_letter (900) 

AHP 

>>> wb = openpyxl.load workbook('example.xlsx') 
>>> sheet = wbl'Sheet1'] 

>>> get _ column_letter(sheet.max_column) 

© ' 

>>> column index from string('A') # Get A's number. 
1 


>>> column index from string('AA') 
27 


在 从 openpyxl.utils 模块 引入 这 两 个 函数 后 ， 那 就 可 以 调用 get_column_letter() 
了 。 传 入 像 27 这 样 的 整数 , 弄 清 楚 第 27 列 的 字母 是 什么 .函数 column_index_from_string() 
做 的 事情 相反 : 传 入 一 列 的 字母 名 称 ， 它 告诉 你 该 列 是 第 几 列 。 要 使 用 这 些 函 数 ， 不 必 加 载 一 
个 工作 敌 。 也 可 以 加 载 一 个 工作 簿 ， 取 得 Worksheet 对 象 ， 并 使 用 Worksheet 对 象 的 属性 ， 
如 max_column， 来 取得 一 个 整数 。 然 后 ， 将 该 整数 传递 给 get_column_letter()。 


13.3.5 ”从 表 中 取得 行 和 列 


可 以 将 Worksheet 对 象 切 片 ， 取 得 电子 表格 中 一 行 、 一 列 或 一 个 矩形 区 域 中 的 所 有 Cell 
对 象 。 然 后 可 以 循环 遍历 这 个 切片 中 的 所 有 单元 格 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyxl 
>>> wb = openpyxl.1load workbook('example.xlsx') 
>>> sheet = wh['Sheet1'] 
>>> tuple(sheet['A1':'C3']) # Get all cells from A1 to C3. 
((<Cell 'Sheet1' .A1>, <Cell ‘Sheet1'.B1>, <Cell “Sheet1 ' .C1>), (<Cell 
'Sheet1'.A2>, <Cell 'Sheet1'.B2>, <Cell 'Sheet1' .C2>), (<Cell 'Sheet1' .A3>, 
<Cell “Sheet1 " .B3>, <Cell “Sheet1 '" .C3>)) 
@ >>> for rowOfCellObjects in sheet['A1':'C3°']: 
i for cellO0bij in rowofCellO0bjects: 
. print(cell0Obij.coordinate, cell0bj.value) 
print('--- END OF ROW 


A1 2015-04-05 13:34:02 


- END OF ROW - 
A2 2015-04-05 03:41:23 
B2 Cherries 


C2 85 

--- END OF ROW - 

A3 2015-04-05 二 SS 
B3 Pears 

C3 14 

--- END OF ROW 


这 里 ， 我 们 指明 需要 从 Al 到 C3 的 矩形 区 域 中 的 Cell 对 象 ， 我 们 还 得 到 了 一 个 
Generator 对 象 ， 它 包含 该 区 域 中 的 Cell 对 象 。 为 了 弄 清楚 这 个 Generator 对 月， 可 以 对 
它 使 用 tuple( ) 方 法 以 在 一 个 元 组 中 列 出 它 的 Cell 对 象 。 

这 个 元 组 包含 3 个 元 组 : 每 个 元 组 代表 1 行 ， 从 指定 区 域 的 顶部 到 底部 。 这 3 个 内 部 元 组 
中 的 每 一 个 包含 指定 区 域 中 一 行 的 Cell 对 象 ， 从 最 左边 的 单元 格 到 最 右边 的 单元 格 。 总 的 来 
说 ， 工 作 表 的 这 个 切片 包含 了 从 Al1 到 C3 区 域 的 所 有 Ce1ll 对 象 ， 从 左上 角 的 单元 格 开 始 ， 到 


13.3 ” 读 取 Excel 文档 243 


右 下 角 的 单元 格 结束 。 

要 和 输出 这 个 区 域 中 所 有 单元 格 的 值 ， 我 们 使 用 两 个 for 循环 。 外 层 for 循环 遍历 这 个 切片 中 的 
每 一 行 @。 然 后 针对 每 一 行 ， 内 层 for 循环 遍历 该 行 中 的 每 个 单元 格 @。 

要 访问 特定 行 或 列 的 单元 格 的 值 , 也 可 以 利用 Worksheet 对 象 的 rows 和 columns 属性 。 
这 些 属性 必须 被 1ist( ) 函数 转换 为 列表 ， 才 能 使 用 方 括号 和 索引 。 在 交互 式 环境 中 输入 以 下 
代码 : 


>>> Import openpyxl 
>>> wb = openpyxl.load workbook('example.xlsx') 
>>> Sheet = wb.active 
>>> list(sheet.columns)[1] # Get second column's cells. 
(<Cell 'Sheet1'.B1>, <Cell 'Sheet1'.B2>, <Cell 'Sheet1'.B3>, <Cell ‘Sheet1'. 
B4>, <Cell 'Sheet1'.B5>, <Cell 'Sheet1'.B6>, <Cell 'Sheet1' .B87>) 
>>> for cell0bj in list(sheet.columns)[1]: 
print(cell0bj.value) 


Apples 
Cherries 
Pears 
Oranges 
Apples 
Bananas 
Strawberries 


利用 Worksheet 对 象 的 rows 属性 ， 可 以 得 到 一 个 元 组 构成 的 元 组 。 内 部 的 每 个 元 组 都 代表 
1 行 ， 包 含 该 行 中 的 Cell 对 象 。columns 属性 也 会 给 你 一 个 元 组 构成 的 元 组 ， 内 部 的 每 个 元 组 都 
包含 1 列 中 的 Cell 对 象 。 对 于 example.xlsx， 因 为 有 7 行 3 列 , 所 以 rows 给 出 由 7 个 元 组 构成 的 
一 个 元 组 (每 个 内 部 元 组 包含 3 个 Cell 对 象 )，columns 给 出 由 3 个 元 组 构成 的 一 个 元 组 (每 个 
内 部 元 组 包含 7 个 Cell 对 象 )。 

要 访问 一 个 特定 的 元 组 , 可 以 利用 它 在 大 的 元 组 中 的 索引 。 例如 ， 要 得 到 代表 B 列 的 元 组 ， 
可 以 用 sheet .columns[1]; 要 得 到 代表 A 列 的 元 组 ， 可 以 用 sheet .columns[0]。 在 得 到 
了 代表 行 或 列 的 元 组 后 ， 可 以 循环 遍历 它 的 对 象 ， 并 输出 它们 的 值 。 


13.3.6 工作 乔 、 工 作 表 、 单 元 格 


作为 快速 复习 的 内 容 , 下 面 是 从 电子 表格 文件 中 读 取 单 元 格 涉及 的 所 有 函数 、 方 法 和 数据 类 型 。 
1]. 导入 openpyx1 模块 。 

. 调用 openpyxl.1load workbook() 函 数 。 

. 取得 Workbook 对 象 。 

.使 用 active 或 sheetnames 属性 。 

. 取得 Worksheet 对 和 象 。 

使 用 索引 或 工作 表 的 cel11() 方 法 ， 带 上 row 和 column 关键 字 参 数 。 

取得 Cel1l 对 象 。 

读 取 Cell 对 象 的 value 属性 。 


13 


oo ~ 修改 上 ww NN 
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13.4 项目 : 从 电子 表格 中 读 取 数据 


假定 你 有 一 张 电子 表格 ,其 数据 来 自 2010 年 美国 人 口 普查 。 你 有 一 个 无 聊 的 任务 , 要 让 历 
表 中 的 几 千 行 , 计算 总 的 人 口 以 及 每 个 县 的 普查 区 的 数目 (普查 区 就 是 一 个 地 理 区 域 ,是 为 人 口 普 
查 而 定义 的 )。 每 行 表示 一 个 人 口 普查 区 。 我 们 将 这 个 电子 表格 文件 命名 为 censuspopdata.xlsx， 可 
以 从 异步 社区 本 书 对 应 页 面 下 载 它 。 它 的 内 容 如 图 13-2 所 示 。 

尽管 Excel 能 够 计算 多 个 选中 单元 格 的 和 ， 但 你 仍然 需要 选中 3000 个 以 上 县 的 单元 格 。 
即使 手动 计算 一 个 县 的 人 口上 只 需要 几 秒 ， 处 理 整 张 电子 表格 也 需要 几 小 时 。 

在 这 个 项 目 中 ， 你 要 编写 一 个 脚本 ， 从 人 口 普查 电子 表格 文件 中 读 取 数 据 ， 并 在 几 秒 内 计 
算出 每 个 县 的 统计 值 。 | 和 

程序 需要 完成 以 下 任务 。 9841 06075010500 CA eo 


1. 从 Excel 电子 表格 中 读 取 数 据 。 ei etre ~ 
2. 计算 每 个 县 中 普查 区 的 数目 。 si pA 
等 计算 每 个 县 的 总 人 口 。 9846 06075011000 CA SanFrancisco 


9847 ‘06075011100 CA San Francisco 
by Census Tract - 记 


4. 输出 结果 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 用 openpyx1l 模块 打开 Excel 文档 并 读 取 单 
元 格 。 

2. 计算 所 有 普查 区 和 人 口 数据 ， 并 将 它 保存 到 一 个 数据 结构 中 。 

3. 利用 pprint 模块 ， 将 该 数据 结构 写 入 一 个 扩展 名 为 .py 的 文本 文件 。 


第 1 步 : 读 取 电子 表格 数据 


censuspopdata.xlsx 电子 表格 中 只 有 一 张 表 ， 名 为 'Population by Census Tract'。 
每 一 行 都 保存 了 一 个 普查 区 的 数据 。 列 分 别 是 普查 区 的 编号 (A)、 州 的 简称 (B)、 县 的 名 称 (C)、 
普查 区 的 人 口 (D)。 

打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 将 文件 保存 为 readCensusExcel.py: 

#! python3 


# readCensusExcel.py - Tabulates population and number of census tracts for 
# each county. 


图 13-2 ”censuspopdata.xlsx 电子 表格 


@ import openpyxl, pprint 
print('Opening workbook...') 
四 wb = openpyxl.1lo0ad workbook('censuspopdata.xlsx') 
© sheet = wb['Pcpulation by Census Tract'] 
countyData = :} 


# TODO: Fill in countyData with each county's population and tracts. 
print('Reading rows...') 
@ for row in range(2, sheet.max row + 1): 
# Each row in the spreadsheet has data for one census tract. 
state = Sheet['B' + str(row)].value 
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county = sheet['C' + str(row)].value 
pop = Sheet['D' + str(row)] .value 


# TODO: Open a new text file and write the contents of countyData to it. 


这 段 代码 导入 了 openpyx1l 模块 ， 也 导入 了 pprint 模块 ， 用 pprint 模块 来 输出 最 终 的 
县 的 数据 @。 然 后 代码 打开 了 censuspopdata.xlsx 文件 @， 取 得 了 包含 人 口 普查 数据 的 工 
作 表 日， 并 开始 迭代 它 的 行 @。 

请 注意 ， 你 也 创建 了 一 个 countyData 变量 ， 它 将 包含 你 计算 的 每 个 县 的 人 口 和 普查 区 
数目 。 在 它 里 面 存储 任何 数据 之 前 ， 你 应 该 确定 它 内 部 的 数据 结构 。 


第 2 步 : 填充 数据 结构 


保存 在 countyData 中 的 数据 结构 将 是 一 个 字典 ， 以 州 的 简称 作为 键 。 每 个 州 的 简称 将 映 
射 到 另 一 个 字典 ， 其 中 的 键 是 该 州 的 县 的 名 称 。 每 个 县 的 名 称 又 映射 到 一 个 字典 ， 该 字典 只 有 两 
个 键 : “tracts' 和 'pop' 。 这 些 键 映射 到 普查 区 数目 和 该 县 的 人 口 。 例 如 ， 该 字典 可 能 类 似 于 : 
{'AK': {'Aleutians East': {'pop': 3141, ‘tracts': 1}, 
'Aleutians West': {'pop': 5561, 'tracts': 2}, 
'Anchorage': {'pop': 291826, 'tracts': 55}, 
“Bethel : {'pop': 17013, 'tracts': 3}, 
"Bristol Bay's {pop’': 0907, ‘tracte's 全 5 
--SNip-- 


如 果 前 面 的 字典 保存 在 countyData 中 ， 下 面 的 表达 式 求 值 结果 如 下 : 


>>> countyData['AK']['Anchorage']['pop'] 


291826 

>>> countyData['AK']['Anchorage']['tracts'] 

55 

一 般 来 说 ，countyData 字典 中 的 键 看 起 来 像 这 样 : 


countyData[state abbrev][county]['tracts'] 
countyData[state abbrev][couwnty][ "pop '] 


既然 知道 了 countyData 的 结构 ， 那 就 可 以 编写 代码 ， 并 用 县 的 数据 填充 它 了 。 将 下 面 的 
代码 添加 到 程序 的 末尾 : 


#! python 3 
# readCensusExcel.py - Tabulates population and number of census tracts for 
# each county. 


--SnIip-- 
for row in range(2, Sheet.max row + 1): 
# Each row in the spreadsheet has data for one census tract. 
state = sheet['B' + str(row)].value 
county = sheet['C' + str(row)].value 
pop = sheet['D' + str(row)].value 


# Make sure the key for this state exists. 
@ countyData.setdefault(state, {}) 
# Make sure the key for this county in this state exists. 
@ countyData[state].setdefault(county, {'tracts': 0, 'pop': 0}) 
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# Each row represents one census hee so increment by one. 
@ countyData[state][county]['tracts'] += 

# Increase the county pop by the pop ee this census SC 
@ countyData[state][county]['pop'] += int(pop) 


# TODO: Open a new text file and write the contents of countyData to it. 


最 后 的 两 行 代码 执行 实际 的 计算 工作 ， 在 for 循环 的 每 次 迭代 中 ， 针 对 当前 的 县 ， 增加 
tracts 的 值 @， 并 增加 pop 的 值 @。 

其 他 代码 存在 是 因为 只 有 countyData 中 存在 键 ， 你 才能 添加 县 字典 作为 州 缩写 键 的 值 。 
(也 就 是 说 ， 如 果 'AK' 键 不 存在 ，countyData[ 'AK']['Anchorage']['tracts'] += 1 将 
导致 一 个 错误 。) 为 了 确保 州 缩写 的 键 存 在 ， 你 需要 调用 setdefault () 方 法 ， 在 state 还 不 
存在 时 设置 一 个 默认 值 @。 

正如 countyData 字典 需要 一 个 字典 作为 每 个 州 缩写 的 值 一 样 ， 这 样 的 字典 又 需要 一 个 字典 作 
为 每 个 县 的 键 的 值 @。 这 样 的 每 个 字典 又 需要 键 'tracts' 和 'pop'， 它 们 的 初始 值 为 整数 0〈 如 果 
这 个 字典 的 结构 令 你 混淆 ， 回 去 看 看 本 节 开 始 处 字典 的 例子 )。 

如 果 键 已 经 存在 ， 那么 setdefault () 不 会 做 任何 事情 ， 因 此 在 for 循环 的 每 次 迭代 中 调 
用 它 不 会 有 问题 。 


第 3 步 : 将 结果 写 入 文件 


for 循环 结束 后 ，countyData 字典 将 包含 所 有 的 人 口 和 普查 区 信息 ， 以 县 和 州 为 键 。 这 
时 ， 你 可 以 编写 更 多 代码 ， 将 数据 写 入 文本 文件 或 另 一 个 Excel 电子 表格 。 目 前 ， 我 们 只 是 使 
用 pprint.pformat () 函 数 ， 将 变量 字典 的 值 作为 一 个 巨大 的 字符 串 写 入 文件 census2010.py。 
在 程序 的 末尾 加 上 以 下 代码 〈 确 保 它 没 有 缩 进 ， 这 样 它 就 在 for 循环 之 外 ): 


#! python 3 

# readCensusExcel.py - Tabulates population and number of census tracts for 
# each county. 

--SNip-- 


for row in range(2, sheet.max row + 1): 
- -SNip-- 


# Open a new text file and write the contents of countyData to it. 
print('Writing results...') 

resultFile = open('censyus2010.py', 'w') 

resultFile.write('allData = ' + pprint.pformat(countyData)) 
resultFile.closel() 

print('Done.') 


pprint.pformat() 函 数 产 生 一 个 字符 串 ， 它 本 身 就 是 格式 化 好 的 、 有 效 的 Python 代码 。 

a > 输出 到 文本 文件 census2010.py， 你 就 通过 Python 程序 生成 了 一 个 Python 程序 。 这 看 起 来 

能 有 点 复杂 ， 但 好 处 是 你 现在 可 以 导入 census2010.py， 就 像 导入 任何 其 他 Python 模块 一 样 。 在 
et 将 当前 工作 目录 变更 到 新 创建 的 census2010.py 文件 所 在 的 文件 夹 ， 然 后 导入 它 : 


>>> import os 


>>> import census2010 
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>>> census2010. allDatal[ ' AK、 Anchorage ' ] 
{ "pop ` : 291826, 'tracts': 55} 

>>> anchoragePop = census2010. allData['AK']['Anchorage']['pop'] 

>>> print('The 2010 population of Anchorage was ' + str(anchoragePop)) 
The 2010 population of Anchorage was 291826 


readCensusExcel.py 程序 是 可 以 扔 掉 的 代码 : 当 你 把 它 的 结果 保存 为 census2010.py 之 后 ， 
就 不 需要 再 次 运行 该 程序 了 。 任何 时 候 , 只 要 需要 县 的 数据 , 就 可 以 执行 import census2010 
来 获得 。 

手动 计算 这 些 数据 可 能 需要 数 小 时 ， 而 使 用 这 个 程序 只 要 几 秒 。 利 用 openpyx1， 可 以 毫 无 困 
难 地 提取 保存 在 Excel 电子 表格 中 的 信息 ， 并 对 它 进 行 计算 。 从 异步 社区 本 书 对 应 页 面 可 以 下 
载 这 个 完整 的 程序 。 


第 + 步 : 类 似 程序 的 思想 i 


许多 公司 和 组 织 机 构 使 用 Excel 来 保存 各 种 类 型 的 数据 ， 这 使 得 电子 表格 会 变 得 庞大 ， 这 并 不 
少见 。 解 析 Excel 电子 表格 的 程序 都 有 类 似 的 结构 : 加 载 电 子 表格 文件 ， 准 备 一 些 变量 或 数据 结构 ， 
然后 循环 过 历 电子 表 格 中 的 每 一 行 。 这 样 的 程序 还 可 以 做 下 列 事情 。 

口 比较 一 个 电子 表格 中 多 行 的 数据 。 

口 打开 多 个 Excel 文件 ， 跨 电子 表格 比较 数据 。 

D 检查 电子 表格 是 否 有 空 行 或 无 效 的 数据 ， 如 果 有 就 发 出 警告 。 

口 从 电子 表格 中 读 取 数据 ， 将 它 作为 Python 程序 的 输入 。 


13.5 ” 写 入 Excel 文档 


openpyxl 也 提供 了 一 些 方法 写 入 数据 , 这 意味 着 你 的 程序 可 以 创建 和 编辑 电子 表格 文件 。 
利用 Python 创建 一 个 包含 几 千 行 数据 的 电子 表格 是 非常 简单 的 。 


13.5.1 创建 并 保存 Excel 文档 


调用 openpyx1.Workbook ( ) 函数 以 创建 一 个 新 的 空 Workbook 对 象 。 在 交互 式 环境 中 输 
入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyxl.Workbook() # Create a blank workbook . 

>>> Wb .sheetnames # It starts with one Sheet ， 

[ "Sheet ' ] 

>>> Sheet = wb.active 

>>> sheet.title 

'Sheet 

>>> sheet.title = 'Spam Bacon Eggs Sheet' # Change title. 
>>> wb.sheetnames 

['Spam Bacon Eggs Sheet '] 


工作 短 将 从 一 个 名 为 Sheet 的 工作 表 开 始 。 你 可 以 将 新 的 字符 串 保存 在 它 的 title 属性 中 ， 
从 而 改变 工作 表 的 名 字 。 
当 修 改 Workbook 对 象 或 它 的 工作 表 和 单元 格 时 ， 电 子 表 格 文件 不 会 保存 ， 除 非 你 调用 
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save( ) 工 作 敌 方 法 。 在 交互 式 环境 中 输入 以 下 代码 (让 example .xlsx 处 于 当前 工作 目录 ): 


>>> import openpyxl 

>>> wh = openpyxl.load workbook('example.xlsx') 

>>> sheet = wh.active 

>>> sheet.title = 'Spam Spam Spam' 

>>> wb.save('example copy.xlsx') # Save the workbook. 


这 里 , 我 们 改变 了 工作 表 的 名 称 。 为 了 保存 变更 , 我 们 将 文件 名 作为 字符 串 传 递 给 save () 
方法 。 传 入 的 文件 名 与 最 初 的 文件 名 不 同 ， 例 如 'example_copy . Xl1sx'， 这 将 变更 保存 到 电 
子 表格 的 一 份 副本 中 。 

当 你 编辑 从 文件 中 加 载 的 一 个 电子 表格 时 ， 总 是 应 该 将 新 的 、 编 辑 过 的 电子 表格 保存 到 不 
同 的 文件 名 中 。 这 样 ， 如 果 代 码 有 bug， 导 致 新 的 保存 到 文件 中 的 数据 不 对 ， 那 么 还 有 最 初 的 
电子 表格 文件 可 以 处 理 。 


13.5.2 ”创建 和 删除 工作 表 


利用 create_sheet() 方 法 和 del 操作 符 可 以 在 工作 德 中 添加 或 删除 工作 表 。 在 交互 式 环 
境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyxl.Workbook() 

>>> wb.sheetnames 

['Sheet')] 

>>> wb.create sheet() # Add a new sheet. 

<Worksheet “Sheet1 "> 

>>> wb.sheetnames 

[ 'Sheet ' ， ‘Sheet1'] 

>>> # Create a new Sheet at index 0. 

>>> wb.create sheet(index=0, title='First Sheet ) 
<Worksheet "First Sheet"> 

>>> wb.sheetnames 

['First Sheet', 'Sheet', 'Sheet1'] 

>>> wb.create sheet(index=2, title='Middle Sheet') 
<Worksheet "Middle Sheet"> 

>>> wb.sheetnames 

['First Sheet', 'Sheet', 'Middle Sheet', 'Sheet1'] 


create sheet() 方 法 返回 一 个 新 的 Worksheet 对 象 ， 其 名 为 SheetX, 它 默认 是 工作 簿 
的 最 后 一 个 工作 表 。 或 者 ， 可 以 利用 index 和 title 关键 字 参 数 指定 新 工作 表 的 索引 和 名 称 。 

继续 前 面 的 例子 ， 输 入 以 下 代码 : 

>>> wb.sheetnames 

['First Sheet', ‘Sheet', 'Middle Sheet', 'Sheet1'] 

>>> del wb['Middle Sheet'] 

>>> del wb['Sheet1'] 


>>> wb.sheetnames 
['First Sheet` ， 'Sheet'] 


可 以 使 用 del 操作 符 , 从 工作 簿 中 删除 一 个 工作 表 , 就 像 用 它 从 字典 中 删除 一 个 键 - 值 对 -- 样 。 
在 工作 短 中 添加 或 删除 工作 表 之 后 ， 记 得 调用 save ( ) 方 法 来 保存 变更 。 


13.5.3 ”将 值 瑟 入 单元 格 
将 值 写 入 单元 格 ， 很 像 将 值 写 入 字典 中 的 键 。 在 交互 式 环境 中 输入 以 下 代码 : 
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>>> import openpyxl 

>>> wb = openpyxl .Workbook() 

>>> sheet = wb['Sheet'] 

>>> sheet['A1'] = 'Hello, world!' # Edit the cell's value. 

>>> sheet['A1'].value 

‘Hello, world!' | 
i a 


如 果 你 有 单元 格 坐 标的 字符 串 ， 那 么 可 以 像 字 典 的 键 一 样 ， 将 它 用 于 Worksheet 对 象 ， 
并 指定 要 写 入 的 单元 格 。 | 


13.6 项 目 : 更 新 电子 表格 


这 个 项 目 需要 编写 一 个 程序 , 用 于 更 新 产品 销售 电子 表格 中 的 单元 格 。 程序 将 遍历 这 个 电子 表格 ， 
找到 特定 类 型 的 产品 , 并 更 新 它们 的 价格 。 请 从 异步 社区 本 书 对 应 页 面 下 载 电 子 表 格 produceSales.xlsx。 
图 13-3 所 示 为 这 个 电子 表格 的 一 部 分 。 

每 一 行 代表 一 次 单独 的 销售 。 列 分 别 是 销售 
产品 的 类 型 (A)、 产 品 每 磅 的 价格 (B)、 销 售 的 
磅 数 (C)， 以 及 这 次 销售 的 总 收入 (D)。TOTAL 
列 设置 为 Excel 公式 =ROUND(B3*C3, 2)， 它 将 每 
磅 的 成 本 乘 以 销售 的 磅 数 ， 并 将 结果 取 整 到 分 。 
有 了 这 个 公式 ， 如 果 列 B 或 C 发 生变 化 ，TOTAL 
列 中 的 单元 格 将 目 动 更 新 。 a oe 

现在 假设 Garlic、Celery 和 Lemon 的 价格 图 13-3 产品 销售 的 电子 表格 
输入 得 不 正确 。 这 让 你 需要 执行 一 项 无 聊 的 任务 : 遍历 这 个 电子 表格 中 的 几 千 行 ， 更 新 所 有 
Garlic、Celery 和 Lemon 行 中 每 磅 的 价格 。 你 不 能 简单 地 对 价格 查找 替换 ， 因 为 可 能 有 其 他 
的 产品 价格 一 样 ， 你 不 希望 错误 地 “更 正 ”。 对 于 几 千 行 数 据 ， 手 动 操作 可 能 要 几 小 时 。 但 你 可 
以 编写 程序 ， 几 秒 内 完成 这 个 任务 。 13 | 

程序 需要 完成 以 下 任务 。 

1. 循环 裔 历 所 有 行 。 

2. 如 果 该 行 是 Garlic、Celery 或 Lemon， 就 更 新 价格 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 打开 电子 表格 文件 。 

2. 针对 每 一 行 ， 检 查 列 A 的 值 是 不 是 Celery、Gar1lic 或 Lemon。 

3. 如 果 是 ， 更 新 列 B 中 的 价格 。 

4. 将 该 电子 表格 保存 为 一 个 新 文件 (这 样 就 不 会 丢失 原来 的 电子 表格 ， 以 防 万 一 )。 


第 1 步 : 利用 更 新 信息 建立 数据 结构 


需要 更 新 的 价格 如 下 。 
Celery 1.19 


FE A | C : 
1 [proouce |cosTPERPOUND POUNDSSOLD TOTAL FE 
0.86 l 


250 第 13 章 处 理 Excel 电子 表格 


Garlic 3.07 
Lemon Py 
你 可 以 像 这 样 编写 代码 : 


if produceName == 'Celery': 
cell0bj = 1.19 


if produceName == 'Garlic': 
cell0bj = 3.07 
if produceName == 'Lemon': 


Cell0bj = 1.27 


这 样 硬 编码 产品 和 更 新 的 价格 有 点 不 优雅 。 如 果 你 需要 用 不 同 的 价格 或 针对 不 同 的 产品 再 
次 更 新 这 个 电子 表格 ， 那 就 必须 修改 很 多 代码 。 每 次 修改 代码 ， 都 有 引入 bug 的 风险 。 

更 灵活 的 解决 方案 是 将 正确 的 价格 信息 保存 在 字典 中 ， 在 编写 代码 时 利用 这 个 数据 结构 。 
在 一 个 新 的 文件 编辑 器 窗口 中 输入 以 下 代码 : 


#! python3 
# UpdateProduce.py - Corrects costs in produce sales Spreadsheet . 


import openpyxl 


wb = 0penpyxl.load workbook('produceSales.xlsx') 
sheet = wb['Shset '] 


# The produce types and their updated prices 
PRICE UPDATES = {f "Garlic': 3.07， 

人 人 全 天 YY Y.19, 

‘Lemon': 1.27} 


# TODO: Loop through the rows and Update the prices . 


将 它 保存 为 updateProduce.py。 如 果 需 要 再 次 更 新 这 个 电子 表格 ,只 需要 更 新 PRICE_UPDATES 
字典 ， 不 用 修改 其 他 代码 。 


第 2 步 : 检查 所 有 行 ， 更 新 不 正确 的 价格 
程序 的 下 一 部 分 将 循环 遍历 电子 表格 中 的 所 有 行 。 将 下 面 代码 添加 到 updateProduce.py 的 
末尾 : 


#! python3 
# UpdateProduce.py - Corrects costs in produce sales spreadsheet. 


--SN1iD-- 


# Loop through the rows and update the prices. 
© for rowNum in range(2, sheet.max row): # Skip the first row 


© produceName = Ssheet.cell(row=rowNum, column=1).value 
© if produceName in PRICE UPDATES: 
sheet.cell(row=rowNum, column=2).value = PRICE UPDATES[produceName] 


© wb.save('updatedProduceSales.xlsx') 


我 们 从 第 2 行 开 始 循 环 遍 历 ， 因 为 第 1 行 是 表 头 上 加。 第 1 列 的 单元 格 〈 即 列 A) 将 保存 在 
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变量 produceName 中 @。 如 果 produceName 的 值 是 PRICE_UPDATES 字典 中 的 一 个 键 @， 屠 
你 就 知道 ， 这 行 的 价格 必须 修改 。 正 确 的 价格 是 PRICE_ UPDATES[produceName]。 

请 注意 ， 使 用 PRICE_UPDATES 让 代码 变 得 很 简洁 。 只 需要 一 条 if 语句 ， 而 不 是 像 if 
produceName == 'Garlic' 这 样 的 代码 ， 就 能 够 更 新 所 有 类 型 的 产品 。 因 为 代码 没有 硬 编码 
产品 名 称 ， 而 是 使 用 PRICE_UPDATES 字典 ， 在 for 循环 中 更 新 价格 ， 所 以 如 果 产 品 销售 电子 
表格 需要 进一步 修改 ， 那 你 只 需要 修改 PRICE 。 UPDATES 字典 即 可 ， 不 用 修改 其 他 代码 。 

在 遍历 整个 电子 表格 并 进行 修改 后 ， 代 码 将 Workbook 对 象 保存 到 updatedProduceSales. 
xlSx@。 它 没有 禾 写 原来 的 电子 表格 ， 以 防 程序 有 bug 将 电子 表格 改 错 。 在 确认 修改 的 电子 表格 
正确 后 ， 你 可 以 删除 原来 的 电子 表格 。 

你 可 以 从 异步 社区 本 书 对 应 页 面 下 载 这 个 程序 的 完整 源 代码 。 


第 3 步 : 类 似 程序 的 思想 


因为 许多 办 公 室 职员 一 直 在 使 用 Excel 电子 表格 ， 所 以 能 够 自动 编辑 和 写 入 Excel 文件 的 
程序 将 非常 用。 这样 的 程序 可 以 完成 下 列 任务 。 
口 从 一 个 电子 表格 读 取 数据 ， 并 将 其 写 入 其 他 电子 表格 的 某 些 部 分 。 
口 从 网 站 、 文 本 文件 或 剪贴 板 读 取 数 据 ， 将 它 写 入 电子 表格 。 
口 目 动 清理 电子 表格 中 的 数据 。 例 如 ， 可 以 利用 正则 表达 式 读 取 多 种 格式 的 电话 号 码 ， 将 
它们 转换 成 单一 的 标准 格式 。 


13.7 ”设置 单元 格 的 字体 风格 


设置 某 些 单元 格 行 或 列 的 字体 风格 ， 可 以 帮助 你 强调 电子 表格 中 重点 的 区 域 。 例 如 ， 在 这 
个 产品 销售 电子 表格 中 ， 程 序 可 以 对 Potatoes、Garlic 和 Parsnips 等 行使 用 粗 体 。 或 者 也 许 你 希 
望 对 每 磅 价格 超过 $ 美元 的 行使 用 斜体 。 手 动 为 大 型 电子 表格 的 某 些 部 分 设置 字体 风格 非常 令 
大 厌烦 ， 但 程序 可 以 马上 完成 。 

为 了 定义 单元 格 的 字体 风格 ， 需 要 从 openpyxl1.styles 模块 导入 Font () 函 数 : 


from openpyxl.styles import Font 


这 让 你 能 输入 Font () ， 人 代替 openpyx1l.styles.Font() (参见 2.8 节 “ 导 入 模块 > ， 复 
习 这 种 方式 的 import 语句 )。 

这 里 有 一 个 例子 ， 它 创建 了 一 个 新 的 工作 钴 ， 将 Al 单元 格 设置 为 24 点 、 斜 体 。 在 交互 式 
环境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> from openpyxl.styles import Font 

>>> wb = openpyx1l.Workbook () 

>>> Sheet = wWb[' Sheet '] 

>>> italic24Font = Font(Size=24，italic=True) # Create a font. 
>>> sheet['A1'].font = italic24Font # Apply the font to Al1. 
>>> Sheet['A1'] = 'Hello, world!' 

>>> wb.save('styles.xlsx') 
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在 这 个 例子 中 ，Font (size=24，italic=True) 返回 一 个 Font 对 象 ， 它 保存 在 
italic24Font 中 @。Font() 的 关键 字 参 数 size 和 italic 配置 了 该 Font 对 象 的 风格 信息 。 
当 sheet[ 'A1' ] .font 被 赋值 为 italic24Font 对 象 时 @， 所 有 字体 风格 的 信息 将 应 用 于 单 
元 格 Al。 


13.8 ”Font 对 象 


要 设置 font 属性 , 就 向 Font( ) 函数 传 入 关键 字 参 数 。 表 13-2 所 示 为 Font ( ) 函数 可 能 的 
关键 字 参 数 。 


表 13-2 Font style 属性 的 关键 字 参 数 


关键 字 参 数 数据 类 型 描述 
name 字符 串 字体 名 称 ， 如 'Calibri' 或 'Times New Roman'， 
size 整 型 大 小 点 数 
bold 布尔 型 True 表示 粗 体 
italic 布尔 型 True 表示 斜体 


可 以 调用 Font ( ) 来 创建 一 个 Font 对 象 ， 并 将 这 个 Font 对 象 保 存在 一 个 变量 中 ， 然 后 将 
该 变量 赋 给 Cell 对 象 的 font 属性 。 例 如 ， 下 面 的 代码 创建 了 各 种 字体 风格 : 


>>> import openpyxl 

>>> from openpyxl.styles import Font 
>>> wb = openpyxl .Workbook!() 

>>> sheet = wb['Sheet'] 


>>> font0bj1 = Font(name='Times New Roman', bold=True) 
>>> Sheet['A1'].font = font0bj1 
>>> Sheet['A1'] = 'Bold Times New Roman' 


>>> font0bj2 = Font(size=24, italic=True) 
>>> Sheet['B83 ].font = font0bj2 
>>> sheet['B3’] = '24 pt Italic' 


这 里 ， 我 们 将 一 个 Font 对 象 保存 在 font0bj1 中 ， 然 后 将 Al 的 Cell 对 象 的 font 属性 
设置 为 font0bj1。 我 们 对 男 一 个 Font 对 象 重复 这 个 过 程 ， 以 设置 第 二 个 单元 格 的 字体 。 运 
行 这 段 代 码 后 ， 电 子 表格 中 Al 和 B3 单元 格 的 字体 风 


格 将 被 设置 为 自 定义 的 字体 风格 ， 如 图 13-4 所 示 。 nt 
对 于 单元 格 A1， 我 们 将 字体 名 称 设 置 为 'Times 上 
New Roman'， 并 将 bold 设置 为 True， 这 样 我 们 的 3 24 pt ltalic 


文本 将 以 粗 体 Times New Roman 的 方式 显示 。 我 们 没 
有 指定 大 小 ， 因 此 使 用 openpyx1 的 默认 值 11。 在 单 
元 格 B3 中 ,我 们 的 文本 是 斜体 ， 大 小 是 24。 我 们 没有 
指定 字体 的 名 称 ， 因 此 使 用 openpyx1 的 默认 值 Calibri。 


图 13-4 目 定 义 字 体 风格 的 电子 表格 


13.10 调整 行 和 列 pa 


13.9 公式 


公式 以 一 个 等 号 开始 ， 可 以 配置 单元 格 来 让 它 包 含 通过 其 他 单元 格 计算 得 到 的 值 。 在 本 节 
中 ， 你 将 利用 openpyx1 模块 ， 用 编程 的 方式 在 单元 格 中 添加 公式 ， 就 像 添加 普通 的 值 一 样 。 
例如 : 


>>> sheet['B9'] = '=SUM(B1:B8)' 


这 里 将 =SUM(B1:B8) 作 为 单元 格 B9 的 值 ， 将 B9 单元 格 设置 为 一 个 公式 ， 来 计算 单元 格 
Bl1 到 B8 的 和 ， 如 图 13-5 所 示 。 


图 13-5 单元 格 B9 包含 了 公式 =SUM(B1:B8)， 计 算 单 元 格 B1 到 B38 的 和 
为 单元 格 设置 公式 就 像 设 置 其 他 文本 值 一 样 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyxl 
>>> wh = openpyxl1.Workbook() 


>>> Sheet = wb.active 

>>> sheet['A1'] = 200 
>>> sheet['A2'] = 300 

>>> sheet['A3'] = '=SUM(A1:A2)' # Set the formula. 


>>> wb.save('writeFormula.xlsx') 


单元 格 Al 和 A2 分 别 设置 为 200 和 300。 单 元 格 A3 设置 为 一 个 公式 , 求 出 Al 和 A2 的 和 。 
如 果 在 Excel 中 打开 这 个 电子 表格 ， 那 么 A3 的 值 将 显示 为 500。 

Excel 公式 为 电子 表格 提供 了 一 定 程 度 的 编程 能 力 ， 但 对 于 复杂 的 任务 ， 它 很 快 就 会 无 能 
为 力 .例如 ,即使 你 非常 熟悉 Excel 的 公式 ,要 想 弄 清楚 =IFERROR (TRIM(IF(LEN(VLOOKUP(F7,， 
Sheet2!$A$1:$B$10000, 2, FALSE))>0,SUBSTITUTE (VLOOKUP(F7, Sheet2!$A$1:$B$10000, 2, 
FALSE),"",""),"")), "实际 上 做 了 什么 ， 也 是 非常 头痛 的 事 。Python 代码 的 可 读 性 要 好 得 多 。 


13.10 ”调整 行 和 列 


在 Excel 中 ， 调 整 行 和 列 的 大 小 非常 容易 ， 只 需 单 击 并 拖 动 行 的 边缘 或 列 的 表 头 即 可 。 但 
如 果 你 需要 根据 单元 格 的 内 容 来 设置 行 或 列 的 大 小 ， 或 者 希望 一 次 性 设置 大 量 电子 表格 文件 中 
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的 行列 大 小 ， 那 么 编写 Python 程序 来 做 就 要 快 得 多 。 
行 和 列 也 可 以 完全 隐藏 起 来 。 它 们 可 以 被 “冻结 ” 这 样 它们 就 总 是 显示 在 屏幕 上 ， 如 果 输 
出 该 电子 表格 ， 它 们 就 出 现在 每 一 页 上 《〈 这 很 适合 做 表 头 )，。 


13.10.1 设置 行 高 和 列 宽 


Worksheet 对 象 有 row_dimensions 和 column_dimensions 属性 , 分 别 用 于 控制 行 高 
和 列 宽 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Import openpyxl 

>>> Wb = openpyxl.Workbook() 

>>> Sheet = wb.active 

>>> Sheet['A1'] = 'Tall row' 

>>> sheet['B2°] = 'Wide column' 

>>> # Set the height and width: 

>>> sheet.row dimensions[1].height = 70 

>>> sheet.column dimensions['B'].width = 20 
>>> wh.save('dimensions.xlsx') 


工作 表 的 row dimensions 和 column _dimensions 是 像 字典 一 样 的 值 , row_dimensions 包 
含 RowDimension 对 象 ，column dimensions 包含 ColumnDimension 对 象 。 在 row_ 
dimensions 中 ， 可 以 用 行 的 编号 来 访问 一 个 对 象 〈 在 这 个 例子 中 是 1 或 2)。 在 column_ 
dimensions 中 ， 可 以 用 列 的 字母 来 访问 一 个 对 象 〈 在 这 个 例 |[# 
子 中 是 A 或 B)。 

dimensions.xlsx 电子 表格 如 图 13-6 所 示 。 ] 

一 旦 有 了 RowDimension 对 象 , 就 可 以 设置 它 的 高 度 。 一 Ta 
旦 有 了 ColumnDimension 对 象 ， 就 可 以 设置 它 的 宽度 。 行 的 
高 度 可 以 设置 为 0 到 409 之 间 的 整数 或 浮 点 值 ， 这 个 值 表 示 高 。 图 13-6 行 1 和 列 B 设 置 了 
度 的 点 数 。 一 点 等 于 0.35mm(1/72 英寸 )。 默认 的 行 高 是 12.75。 大风 放 和 克 民 
列 宽 可 以 设置 为 0 到 255 之 间 的 整数 或 浮 点 数 ， 这 个 值 表示 使 用 默认 字体 大 小 时 (11 点 )， 单 
元 格 可 以 显示 的 字符 数 。 默 认 的 列 宽 是 8.43 个 字符 。 列 宽 为 零 或 行 高 为 霍 将 使 单元 格 隐藏 。 


13.10.2 合并 和 拆 分 单元 格 


利用 merge_cells() 工 作 表 方法 ， 可 以 将 一 个 矩形 区 域 中 的 单元 格 合 并 为 一 个 单元 格 。 
在 交互 式 坏 境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyxl.Workbook() 

>>> sheet = wb.active 

>>> sheet.merge cells('A1:D3') # Merge all these cells. 


>>> sheet['A1’] = 'Twelve cells merged together.' 
>>> sheet.merge cells('C5:D5') # Merge these two cells. 
>>> sheet['Cc5’'] = 'Two merged cells.' 


>>> wb.save('merged.xlsx') 
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merge_cells() 的 参数 是 一 个 字符 串 ， 表 示 要 合并 的 和 矩形 区 域 左 上 和 角 和 右 下 角 的 单元 格 : 
'A1:D3' 将 12 个 单元 格 合并 为 一 个 单元 格 。 要 设置 
合并 后 单元 格 的 值 ， 只 需要 设置 这 一 组 合并 单元 格 
左上 角 的 单元 格 的 值 。 

如 果 运 行 这 段 代码 ，merged.xlsx 看 起 来 如 图 13-7 
所 示 。 

要 拆 分 单元 格 ， 就 调用 unmerge cells() 工 
作 表 方法 。 在 交互 式 环境 中 输入 以 下 代码 : 图 13-7 在 电子 表格 中 合并 单元 格 


>>> import openpyxl 

>>> wb = openpyxl.1load workbook('merged.xlsx') 

>>> sheet = wb.active 

>>> sheet.unmerge cells('A1:D3') # Split these cells Up， 
>>> sheet.unmerge cells('Cc5:D5') 

>>> wb.save('merged.xlsx') 


如 果 保 存 变更 ， 然 后 查看 这 个 电子 表格 ， 就 会 看 到 合并 的 单元 格 恢复 成 了 独立 的 单元 格 。 


13.10.3 ”冻结 窗 格 


对 于 太 大 而 不 能 一 屏 显示 的 电子 表格 , “冻结 ”顶部 的 几 行 或 最 左边 的 几 列 是 很 有 帮助 的 。 
例如 ， 就 算 用 户 滚动 电子 表格 ， 冻 结 的 列 或 行 表 头 也 是 始终 可 见 的 。 这 称 为 “冻结 窗 格 ”。 在 
openpyxl 中 ,每 个 Worksheet 对 象 都 有 一 个 freeze_panes 属性 , 该 属性 可 以 设置 为 一 个 Cell 
对 象 或 一 个 单元 格 坐 标的 字符 串 。 请 注意 ， 单 元 格 上 边 的 所 有 行 和 左边 的 所 有 列 都 会 冻结 ， 但 单元 
格 所 在 的 行 和 列 不 会 冻结 。 

要 解冻 所 有 的 单元 格 ， 就 将 freeze panes 设置 为 None 或 'A1'。 表 13-3 所 示 为 
freeze_panes 设置 的 一 些 例 子 ， 其 中 的 哪些 行 或 列 会 冻结 。 


表 13-3 冻结 窗 格 的 例子 


: ,Twelve cells merged together. 


Two merged cejls. 


freeze_panes 的 设置 冻结 的 行 和 列 
sheet.freeze panes = 'A2' 行 ] 
sheet.freeze panes = 'B1' 列 A 
sheet.freeze panes = 'C1' 列 A 和 列 B 
sheet.freeze panes = 'C2' 行 1、 列 A 和 列 B 
sheet.freeze panes = 'A1' 或 . 

_P 没有 冻结 窗 格 


sheet.freeze panes = None 


确保 你 有 产品 销售 电子 表格 (produceSales)。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import openpyxl 

>>> wb = openpyxl.load workbook('produceSales.xlsx') 

>>> Sheet = wb.active 

>>> Sheet .freeze_panes = 'A2' # Freeze the rows above A2. 
>>> wb.save('freezeExample.xlsx') 
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如 果 将 freeze_panes 属性 设置 为 'A2'， 那 么 无 论 用 户 将 电子 表格 滚动 到 何 处 ， 行 1 将 
永远 可 见 ， 如 图 13-8 所 示 。 


NN 


13-8 将 freeze_panes 设置 为 'A2' ， 无 论 用 户 如 何 滚动 电子 表格 ， 行 1 将 永远 可 见 


13.11 图 表 


openpyxl 支持 利用 工作 表 中 单元 格 的 数据 来 创建 条 形 图 、 折 线 图 、 散 点 图 和 人 饼 图 。 要 创 
建 图 表 ， 需 要 做 下 列 事情 。 

1. 从 一 个 矩形 区 域 选 择 单 元 格 来 创建 一 个 Reference 对 象 。 

2. 通过 传 入 Reference 对 象 来 创建 一 个 Series 对 象 。 

3. 创建 一 个 Chart 对 象 。 

4. 将 Series 对 象 添加 到 Chart 对 象 。 

5. 可 选 地 设置 Chart 对 象 的 drawing.top、drawing.left、drawing.width 和 
drawing.height 属性 。 

6. 将 Chart 对 象 添 加 到 Worksheet 对 象 。 

Reference 对 象 需 要 一 些 解释 。Reference 对 象 是 通过 调用 openpyxl.charts. 
Reference() 函 数 并 传 入 以 下 3 个 参数 创建 的 。 

1. 包含 图 表 数 据 的 Worksheet 对 象 。 

2. 两 个 整数 的 元 组 ， 代 表 和 矩形 选择 区 域 的 左上 和 角 单 元 格 ， 该 区 域 包含 图 表 数 据 : 元 组 中 第 
一 个 整数 是 行 ， 第 二 个 整数 是 列 。 请 注意 第 一 行 是 1， 不 是 0。 

3. 两 个 整数 的 元 组 ， 代 表 和 矩形 选择 区 域 的 在 下 角 单 元 格 ， 该 区 域 包含 图 表 数 据 : 元 组 中 第 
一 个 整数 是 行 ， 第 二 个 整数 是 列 。 

图 13-9 所 示 为 坐标 参数 的 一 些 例 子 。 


_ We 


图 13-9 从 左 到 右 : (1,1)，(10,1); (3,2)，(6,4); (5,3)，(5,3) 
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在 交互 式 环境 中 输入 以 下 代码 ， 这 可 以 创建 一 个 条 形 图 并 将 其 添加 到 电子 表格 中 : 


>>> import openpyxl 

>>> wb = openpyxl .Workbook'() 

>>> sheet = wb.active 

>>> for i in range(1, 11): # create some data in column A 
sheet['A' + str(i)] = I 


>>> ref0bj = openpyxl.chart.Reference(sheet, min col=1, min row=1, 
max col=1, max row=10) 
>>> Series0bj = openpyx1l.chart.Series(ref0bj，title='First series') 


>>> chart0bj = openpyxl.chart.BarChart() 
>>> Chart0bj .title = 'MY Chart' 
>>> chart0bj .append(series0bj) 


>>> sheet.add chart(chart0bj， 'C5°') 
>>> wb.save('sampleChart.xlsx') 


得 到 的 电子 表格 如 图 13-10 所 示 。 


| 左 顶 角 位 于 C5。 
1 My Chart go 
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图 13-10 ”添加 了 一 个 图 表 的 电子 表格 


通过 调用 openpyxl .charts.BarChart( ) 我 们 创建 了 一 个 条 形 图 。 也 可 以 调用 openpyx1. 
charts.LineChart() 、openpyxl.charts.ScatterChart() 和 openpyxl. charts. 
PieChart() 来 创建 折线 图 、 散 点 图 和 人 饼 图 。 


13.12 小 结 


处 理 信息 时 比较 难 的 部 分 通常 不 是 处 理 本 身 ， 而 是 让 程序 得 到 正确 格式 的 数据 。 一 旦 你 将 电子 
表格 载 入 Python， 就 可 以 提取 并 操作 它 的 数据 ， 比 手动 操作 要 快 得 多 。 

你 也 可 以 生成 电子 表格 作为 程序 的 输出 。 如 果 需 要 同时 将 包含 几 千 条 销售 合同 的 文本 文件 或 
PDF 转换 成 电子 表格 文件 ， 那 你 就 不 需要 慢 慢 地 将 它 复制 粘贴 到 Excel 中 、 

有 了 openpyx1 模块 和 一 些 编程 知识 ， 你 会 发 现 处 理 很 大 的 电子 表格 也 是 小 事 一 桂 。 
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在 下 一 章 中 ， 我 们 将 学 习 使 用 Python 与 另 一 个 电子 表格 程序 : 在 线 Google Sheets 应 用 程 
序 的 交互 。 


13.13 ”习题 


对 于 以 下 的 问题 , 设想 你 有 一 个 Workbook 对 象 保存 在 变量 wb 中 , 一 个 Worksheet 对 象 
保存 在 sheet 中 ,一 个 Cell 对 象 保存 在 cell 中 ， 一 个 Comment 对 和 象 保存 在 comm 中 ， 一 个 
Image 对 象 保存 在 img 中 。 

. openpyx1.1oad workbook () 函 数 返 回 什 么 ? 

.工作 短 属 性 wb .sheetnames 返回 什么 ? 

. 如何 取得 名 为 'Sheet1 ' 的 工作 表 的 Worksheet 对 象 ? 

. 如何 取 得 工作 簿 的 活动 工作 表 的 Worksheet 对 象 ? 

.如何 取 得 单元 格 C5 中 的 值 ? 

. 如何 将 单元 格 C5 中 的 值 设置 为 "Hell0"? 

.如 何 取得 表示 单元 格 的 行 和 列 的 整数 ? 

. 工作 表 属 性 sheet .max_column 和 sheet.max_row 返回 什么 ? 这 些 属性 的 类 型 是 


六 


.如 果 要 取得 列 'M' 的 整数 索引 ， 需 要 调用 什么 函数 ? 

， 如 果 要 取得 列 14 的 字符 串 名 称 ， 需 要 调用 什么 函数 ? 

.如 何 取得 从 Al 到 Fl 的 所 有 Cel1l 对 象 的 元 组 ? 

， 如何 将 工作 短文 件 名 保存 为 example.xlsx? 

.如 何在 一 个 单元 格 中 设置 公式 ? 

.如 果 需 要 取得 单元 格 中 公式 的 结果 ， 而 不 是 公式 本 喘 ， 必 须 先 做 什么 ? 
.如 何 将 第 5 行 的 高 度 设置 为 100? 

.如 何 设置 列 C 的 宽度 ? 

. 什么 是 冻结 窗 格 ? 

. 创建 一 个 条 形 图 ， 需 要 调用 哪 5 个 函数 和 方法 ? 


13.14 ”实践 项 目 
作为 实践 ， 编 程 执行 以 下 任务 。 
13.14.1 ”乘法 表 


创建 程序 multiplicationTable.py， 从 命令 行 接收 数字 N， 在 一 个 Excel 电子 表格 中 创建 一 个 
NXN 的 乘法 表 。 例 如 ， 如 果 这 样 执行 程序 : 


py multiplicationTable.py 6 


它 应 该 创建 一 个 图 13-11 所 示 的 电子 表格 。 


jms。 je 
< 一 


jw 
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图 13-11 在 电子 表格 中 生成 的 乘法 表 
行 1 和 列 A 应 该 用 作 标 签 ， 且 使 用 粗 体 。 


13.14.2 ” 空 行 插入 程序 


创建 一 个 程序 blankRowInserter.py， 它 接收 两 个 整数 和 一 个 文件 名 字符 串 作 为 命令 行 参数 。 
我 们 将 第 一 个 整数 称 为 N， 第 二 个 整数 称 为 M。 程 序 应 该 从 第 N 行 开始 ， 在 电子 表格 中 插入 M 
个 空 行 。 例 如 ， 如 果 这 样 执 行程 序 : 

python blankRowInserter .py 3 2 myProduce.xlsx 
那么 执行 之 前 和 之 后 的 电子 表格 如 图 13-12 所 示 。 


Re 他 二 | Potatoes 

A A DE 
Celery Ginger Yellow per Green bea Fava b 
2 ‘Okra Okra Corn Garlic Tomatoes Yello 
: 3 Fava bean:Spinach Grapefruit Grapes Apricots Papayd 
< ,Watermel Cucumber Ginger Watermel Red onion Butter 
‘Garlic Apricots Eggplant Chernes Strawberri Aprico 
6 1 Parsnips Okra Cucumber Apples Grapes Avocat 
< 'Asparagus Fava bean: Green cabl Grapefruit Ginger Butter 
8 “Avocados Watermek Eggplant Grapes Strawberri Celery 


图 13-12 在 第 3 行 插入 两 个 空 行 之 前 (左边 ) 和 之 后 (右边) 


此 程序 可 以 这 样 写 : 读 入 电子 表格 的 内 容 ， 然 后 在 写 入 新 的 电子 表格 时 ， 利 用 for 循环 复 
制 前 面 YX 行 。 对 于 剩 下 的 行 ， 行 号 加 上 M， 然 后 将 其 写 入 输出 的 电子 表格 。 


13.14.3 ”电子 表格 单元 格 翻转 程序 


编写 一 个 程序 来 翻转 电子 表格 中 行 和 列 的 单元 格 。 例 如 ， 第 5 行 第 3 列 的 值 将 出 现在 第 3 
行 第 5 列 (反之 亦 然 )。 这 应 该 针对 电子 表格 中 的 所 有 单元 格 进行 。 例如， 之 前 和 之 后 的 电子 表 
格 看 起 来 应 该 如 图 13-13 所 示 。 

此 程序 可 以 这 样 写 : 利用 峰 套 的 for 循环 ， 将 电子 表格 中 的 数据 读 入 一 个 列表 的 列表 ; 这 
个 数据 结构 用 sheetData[x][y] 表 示 列 x 和 行 y 处 的 单元 格 ; 然后 ， 在 写 入 新 电子 表格 时 ， 
将 sheetData[y][x] 写 入 列 x 和 行 y 处 的 单元 格 。 


Okra Corn Garlic Tomatoes Yello 


5 JFava bean: Spinach Grapefruit Grapes Apricots Papaye 
i 6 Watermel Cucumber Ginger Watermel Red onion Butter 
7 Garlic Apricots Eggplant Cherries ‘Strawberri Aprico 
8 ‘Parsnips Okra Cucumber Apples Grapes Avocat 
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13.14.4 ”文本 文件 到 电子 表格 


编写 一 个 程序 来 读 取 几 个 文本 文件 的 内 容 ( 可 以 自己 创造 这 些 文本 文件 ), 并 将 这 些 内 容 插 
入 一 个 电子 表格 ， 每 行 写 入 一 行文 本 。 第 一 个 文本 文件 中 的 行将 写 入 列 A 中 的 单元 格 ， 第 二 个 
文本 文件 中 的 行将 写 入 列 B 中 的 单元 格 ， 以 此 类 推 。 

利用 File 对 象 的 readlines() 方 法 来 返回 一 个 字符 串 的 列表 ， 每 个 字符 串 就 是 文件 中 的 
一 行 。 对 于 第 一 个 文件 ， 将 第 1 行 写 入 列 1 行 1。 第 2 行 应 该 写 入 列 1 行 2， 以 此 类 推 。 下 一 个 
用 readlines() 读 入 的 文件 将 写 入 列 2， 再 下 一 个 写 入 列 3， 以 此 类 推 。 


13.14.5 ”电子 表格 到 文本 文件 


编写 一 个 程序 来 执行 与 前 一 个 程序 相反 的 任务 。 该 程序 应 该 打开 一 个 电子 表格 ， 将 列 A 中 的 单 
元 格 写 入 一 个 文本 文件 ， 将 列 B 中 的 单元 格 写 入 男 一 个 文本 文件 ， 以 此 类 推 。 


处 理 Google 电 子 表 格 A 


Google Sheets 是 一 个 免费 的 基于 网 络 的 电子 表格 应 用 ,任何 人 只 要 有 
Google 账户 或 Gmail 地 址 ， 都 可 以 使 用 它 。 对 于 Excel， 它 已 经 成 为 一 个 有 
用 的 、 功 能 丰富 的 竞争 对 手 。Google Sheets 有 自己 的 API， 但 这 个 API 在 学 
习 和 使 用 上 可 能 会 带 来 一 些 困 惑 。 本 章 将 介绍 EZSheets 的 第 三 方 模块 。 虽 
然 EZSheets 的 功能 不 如 Google Sheets 的 官方 API 那么 全 面 ， 但 它 让 常见 的 
电子 表格 任务 很 容易 执行 。 


14.1 安装 和 设置 EZSheets 


可 以 通过 打开 一 个 新 的 命令 行 窗 口 并 运行 pip install - -user ezsheets 来 安装 EZSheets。 
安装 EZSheets 时 也 会 安装 google-api-python- client、google-auth-httplib2 和 
google-auth-oauthlib 模块 。 这 些 模块 允许 你 的 程序 登录 到 Google 的 服务 器 上 ， 并 提出 
API 请 求 。EZSheets 会 处 理 与 这 些 模 块 的 交互 ， 因 为 你 不 需要 关心 它们 是 如 何 工作 的 。 


14.1.1 获取 证 书 和 令 牌 文件 


在 使 用 EZSheets 之 前 ， 你 需要 为 Google 账户 启用 Google Sheets 和 Google Drive API。 请 
访问 以 下 网 页 ， 然 后 单 击 每 个 网 页 顶部 的 Enable API 按钮 。 

口 Google Sheets API 首页 。 

口 Google Drive API 首页 。 

你 还 需要 获得 以 下 3 个 文件 ， 并 将 它们 与 使 用 EZSheets 的 .py Python 脚本 保存 在 同一 个 文 
件 夹 中 。 

口 一 个 名 为 credentials-sheet.json 的 证 书 文 件 。 

口 一 个 名 为 token-sheets.pickle 的 Google Sheets 令 牌 。 

口 一 个 名 为 token-drive.pickle 的 Google Drive 令 牌 。 

证 书 文件 将 生成 令 牌 文件 。 获 取证 书 文件 的 最 简单 的 方法 是 进入 Google Sheets Python 快速 
入 门 页 面 ， 单 击 ENABLE THE GOOGLE SHEETS API 按钮 ， 如 图 14-1 所 示 。 你 需要 登录 到 你 的 
Google 账 尸 才能 查看 这 个 页 面 。 
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Step 1: Turn on the Google Sheets API 学 


Chck he buTton to crcate a new Ciovd Platform progec' enc sutomat colly 
enebte the Googte Sheets APE 


jn resifteg diaiog cick DOWNLOAD CLIENT CONFIGURATION and save the 
fie credentials.json io your woriung Girectory. 
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图 14-1 获取 credentialsjson 文件 


单 击 这 个 按钮 会 弹出 一 个 窗口 ， 里 面 有 一 个 DOWNLOAD CLIENT CONFIGURATION 链 
接 ， 让 你 下 载 一 个 credentials.json 文件 。 将 此 文件 重 命 名 | 
为 credentials-sheets.json， 并 将 它 与 Python 脚本 放 在 同一 |* OB Dom 
个 文件 夹 中 。 hg 

在 有 了 credentials-sheets.json 文件 之 后 , 运行 Import 


ezsheets 模块 。 当 你 第 一 次 导入 EZSheets 模块 时 ， 它 rie 

会 打开 一 个 新 的 浏览 器 窗口 ， 让 你 登录 到 你 的 Google 账 da ne 

户 。 单 击 Allow 按钮 ， 如 图 14-2 所 示 。 0 
关于 Quickstart 的 消息 来 自 这 一 事实 : 你 从 Google 

Sheets Python Quickstart 页 面 下 载 了 证 书 文 件 。 注 意 ， 这 个 pi 


窗口 会 打开 两 次 : 第 一 次 为 了 Google Sheets 访问 , 第 二 次 
为 了 Google Drive 访问 。EZSheets 使 用 Google Drive 访问 
权限 来 上 传 、 下 载 和 删除 电子 表格 。 

在 你 登录 后 ， 浏 览 器 窗口 会 提示 你 关闭 它 ， 而 token- 
sheets.pickle 和 token-drive.pickle 文件 会 出 现在 与 credentials- 图 14-2 允许 Quickstart 
sheets.json 相同 的 文件 夹 中 。 你 只 需要 在 第 一 次 运行 访问 你 的 Google 账户 

如 果 你 在 单 击 Allow 按钮 后 遇 到 错误 ， 并 且 页 面 似乎 被 挂 起 ， 那 请 确认 你 已 经 从 本 节 开 头 
的 链接 中 启用 了 Google Sheets 和 Drive API。Google 的 服务 器 可 能 需要 几 分 钟 的 时 间 来 注册 这 
一 更 改 ， 所 以 你 可 能 需要 等 待 一 会 儿 ， 然 后 才能 使 用 EZSheets。 

不 要 与 任何 人 分 享 证 书 或 令 牌 文件 ， 将 它们 当 作 口令 一 样 对 竺 。 

14.1.2 ”撤销 证 书 文件 

如 果 你 不 小 心 将 这 些 证 书 或 令 牌 文件 与 他 人 共享 ， 那 他 们 不 能 更 改 你 的 Google 账户 口令 ,但 

可 以 访问 你 的 电子 表格 。 你 可 以 通过 访问 Google 云 平台 开发 者 的 控制 台 页 面 , 在 Google APTs 中 的 


API 和 服务 撤销 这 些 文件 。 你 需要 登录 到 你 的 Google 账户 才能 查看 这 个 页 面 。 单 击 侧 边栏 上 的 
Credentials 链接 。 然 后 单 击 你 不 小 心 分 享 的 证 书 文件 旁边 的 垃圾 桶 图 标 ， 如 图 14-3 所 示 。 
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下 载 图 标 


图 14-3 Google 云 平台 开发 者 控制 台中 的 证 书页 面 


要 从 这 个 页 面 生 成 一 个 新 的 证 书 文 件 , 请 单 击 Create credentials 按钮 ,选择 OAuth client ID， 
如 图 14-3 所 示 。 接 下 来 ， 对 于 应 用 程序 类 型 ， 选 择 Other， 并 给 文件 起 一 个 你 喜欢 的 名 字 。 这 个 
新 的 证 书 文件 会 在 页 面 上 列 出 ， 你 可 以 单 击 下 载 图 标 下 载 。 下 载 的 文件 会 有 一 个 长 而 复杂 的 文件 
名 ， 你 应 该 把 它 重 命名 为 EZSheets 试图 加 载 的 默认 文件 名 : credentials-sheetjson。 你 也 可 以 通过 
单 击 上 一 节 中 提 到 的 ENABLE THE GOOGLE SHEETS API 按钮 生成 一 个 新 的 证 书 文 件 。 


14.2 ”Spreadsheet 对 象 


在 Google 电子 表格 中 ， 一 个 “电子 表格 ”可 以 包含 多 个 “ 表 ”( 也 称 为 “工作 表 ”)， 每 个 
表 都 包含 值 的 列 和 行 。 图 14-4 所 示 为 一 个 名 为 “Education Data” 的 电子 表格 , 其 中 包含 3 个 表 ， 
分 别 为 “Students”“Classes ”和 “Resources”。 每 张 表 的 第 一 列 标 为 A， 第 一 行 标 为 1。 
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图 14-4 一 个 名 为 “Education Data” 的 电子 表格 ， 其 中 包含 3 个 表 
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虽然 你 的 大 部 分 工作 会 涉及 修改 Sheet 对 象 ， 但 你 也 可 以 修改 Spreadsheet 对 象 ， 正 如 
你 将 在 下 一 小 节 中 看 到 的 那样 。 


14.2.1 创建 、 上 传 和 列 出 电子 表格 


你 可 以 通过 现 有 的 电子 表格 、 空 白 电子 表 格 或 上 传 的 电子 表格 ,来 创建 一 个 新 的 Spreadsheet 
对 象 。 要 从 现 有 的 Google Sheets 电子 表格 中 创建 一 个 Spreadsheet 对 象 ， 你 需要 电子 表格 的 ID 
字符 串 。Google Sheets 电子 表格 的 唯一 ID 可 以 在 URL 中 找到 ， 在 spreadsheets/d/ 部 分 之 后 、/edit 
部 分 之 前 。 例 如, 图 14-4 所 示 的 电子 表格 的 URL 是 https://docs.****.com/spreadsheets/d/1J-Jx6Ne2K_ 
vql9J2SO-TAXOFbxx_9tUjwnkPC22LjeU/edit#gid=15151537240/, 因此 它 的 ID 是 1J-Jx6Ne2K_ 
vqI9J2S0O-TAXOFbxx 9tUjwnkPC22LjeU。 


注意 : 本 章 中 使 用 的 具体 电子 表格 ID 针对 的 是 我 的 Google 账 户 的 电子 表格 。 如 果 你 将 它们 输入 你 的 交互 
式 Sshell 中 ， 不 会 起 作用 。 请 转 到 Google sheets 网 站 ， 在 你 的 账户 下 创建 电子 表格 ， 然 后 从 地 址 
栏 中 获取 ID。 


将 电子 表格 的 ID 作为 一 个 字符 串 传 递 给 ezsheets .Spreadsheet() 函 数 , 以 获取 电子 表 
格 的 Spreadsheet 对 象 : 


>>> import ezsheets 

>>> ss = ezsheets.Spreadsheet('1J-Jx6Ne2K vqI9J2SO-TAXOFbxx_9tUjwnkPC22LjeUy') 
>>> SS 

Spreadsheet (spreadsheetId='1J-Jx6Ne2K_ vqI9J2SO-TAXOFbxx_9tUjwnkPC22L jeU') 

>>> ss.title 

'Education Data' 


方便 起 见 ， 你 也 可 以 通过 传递 电子 表格 的 完整 URL 来 获取 现 有 电子 表格 的 Spreadsheet 
对 象 。 或 者 ， 如 果 你 的 Google 账户 中 只 有 一 个 具有 该 标题 的 电子 表格 ， 那 么 你 可 以 将 该 电子 表 
格 的 标题 作为 一 个 字符 串 传递 给 函数 。 

要 创建 一 个 新 的 空白 电子 表格 ， 请 调用 ezsheets .createSpreadsheet () 函 数 ， 并 传 入 一 
个 字符 串 作 为 新 电子 表格 的 标题 。 例 如 ， 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import ezsheets 

>>> SS = ezsheets.createSpreadsheet('Title of My New Spreadsheet') 
>>> ss.title 

'Title of My New Spreadsheet' 


要 将 现 有 的 Excel、OpenOfficee、CSV 或 TSV 电子 表格 上 传 到 Google Sheets， 请 将 电子 表 
格 的 文件 名 传 给 ezsheets .upload() 。 在 交互 式 环境 中 输入 以 下 内 容 ， 用 你 自己 的 电子 表格 
文件 替换 my spreadsheet .xlsx: 


>>> import ezsheets 

>>> SS = ezsheets.upload('my_ spreadsheet.xlsx') 
>>> ss.title 

1Y_ SpreadSsheet” 


你 可 以 通过 调用 1istSpreadsheets() 国 数 来 列 出 你 的 Google 账户 中 的 电子 表格 。 上 传 
电子 表格 后 ， 在 交互 式 环境 中 输入 以 下 内 容 : 
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>>> ezsheets.listSpreadsheets() 
{ 1J-Jx6Ne2K_vqI9J2SO-TAXOFbxx_9tUjwnkPC22L jeU':'Education Data'} 


listSpreadsheets() 录 数 返回 一 个 字典 ， 其 中 的 键 是 电子 表格 ID， 值 是 每 个 电子 表格 
的 标题 。 

一 旦 你 获得 了 一 个 Spreadsheet 对 象 ， 就 可 以 使 用 它 的 属性 和 方法 来 操作 托管 在 Google 
Sheets 上 的 在 线 电子 表格 了 。 


14.2.2 ”电子 表格 的 属性 


虽然 实际 数据 存在 于 电子 表格 的 各 个 表 中 ， 但 Spreadsheet 对 象 具 有 属性 : title、 
spreadsheetId、url、sheetTitles 和 sheets， 用 于 操作 电子 表格 本 身 。 在 交互 式 环境 中 
输入 以 下 内 容 : 


>>> import ezsheets 

>>> ss = ezsheets.Spreadsheet('1J-Jx6Ne2K vgI9J2SO-TAXOFbxx 9tUjwnkPC22LjeU') 
>>> ss.title # The title of the spreadsheet. 

‘Education Data' 

>>> ss.title = 'Class Data' # Change the title. 

>>> ss.spreadsheetId # The unique ID (this is a read-only attribute). 
‘1J-JX6Ne2K vqI9J2SO-TAXOFbxx_9tU;jwnkPC22L jeU' 

>>> ss.url # The original URL (this is a read-only attribute). 
"https://docs.google.com/spreadsheets/d/1J-Jx6Ne2K_vqI9J2SO- TAXOFbxx_9tUjwnkPC22L jeU/' 
>>> ss.sheetTitles # The titles of all the Sheet objects 

('Students', 'Classes', 'Resources') 

>>> ss.sheets # The Sheet objects in this Spreadsheet, in order. 

(<Sheet sheetId=0, title='Students', rowCount=1000, columnCount=26>, <Sheet 
sheetId=1669384683, title='Classes', rowCount=1000, columnCount=26>, <Sheet 
sheetId=151537240， title='Resources', rowCount=1000, columnCount=26>) 

>>> ss[0] # The first Sheet object in this Spreadsheet. 

<Sheet SheetId=0， title='Students', rowCount=1000, columnCount=26> 

>>> ss['Students'] # Sheets can also be accessed by title. 

<Sheet sheetId=0, title='Students', rowCount=1000, columnCount=26> 

>>> del ss[0] # Delete the first Sheet object in this Spreadsheet. 
>>> ss.sheetTitles # The "Students" Sheet object has been deleted: 
('Classes', 'Resources') 


如 果 有 人 通过 Google Sheets 网 站 修改 电子 表格 ， 那 么 你 的 脚本 可 以 调用 refresh() 方 法 
更 新 Spreadsheet 对 象 ， 使 它 与 在 线 数据 相 匹 配 : 


>>> ss.refresh() 


这 不 仅 会 刷新 Spreadsheet 对 象 的 属性 ， 还 会 刷新 其 包含 的 Sheet 对 象 中 的 数据 。 你 对 
电子 表格 对 象 所 做 的 更 改 将 实时 反映 到 在 线 电子 表格 中 。 


14.2.3 下 载 和 上 传 电子 表格 


你 可 以 下 载 多 种 格式 的 Google Sheets 电子 表格 : Excel、OpenOfffce、CSV、TSV 和 PDF。 
也 可 以 将 它 下 载 为 一 个 ZIP 文件 ， 其 中 包含 电子 表格 数据 的 HTML 文件 。 EZSheets 包含 一 些 函 
数 ， 用 于 实现 所 有 这 些 选项 : 


>>> import ezsheets 
>>> SS = ezsheets.Spreadsheet('1J-Jx6Ne2K vgI9J2SO-TAXOFbxx 9tUjwnkPC22LjeU') 
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>>> 55,title 

‘Class Data' 

>>> ss.downloadAsExcel() # Downloads the spreadsheet as an Excel file. 
'Class Data.xlsx' 

>>> ss.downloadAs0DS() # Downloads the spreadsheet as an OpenOffice file. 
'Class Data.ods' 

>>> ss.downloadAsCSV() # Only downloads the first sheet as a CSV file. 
‘Class Data.csyv' 

>>> ss.downloadAsTSV() # Only downloads the first sheet as a TSV file. 
'Class Data.tsyv' 

>>> ss.downloadAsPDF() # Downloads the spreadsheet as a PDF. 

'Class Data.pdf' 

>>> ss.downloadAsHTML() # Downloads the spreadsheet as a ZIP of HTML files. 
'Class Data.zip' 


请 注意 ,CSV 和 TSV 格式 的 文件 只 能 包含 一 个 工作 表 。 因 此 ,如 果 你 下 载 这 种 格式 的 Google 
Sheets 电子 表格 , 就 只 会 获得 第 一 个 工作 表 。 要 下 载 其 他 工作 表 , 你 需要 将 工作 表 对 象 的 index 
属性 更 改 为 0。 有 关 如 何 操作 的 信息 ， 请 参阅 14.3.2 小 节 “ 创 建 和 删除 工作 表 ”。 

这 些 下 载 函 数 都 会 返回 一 个 下 载 文 件 的 文件 名 字符 串 。 你 也 可 以 将 新 的 文件 名 传递 给 下 载 
函数 ， 从 而 为 电子 表格 指定 文件 名 : 


>>> ss.downloadAsExcel('a different filename .xlsx') 
'a different filename.xlsx' 


该 函数 应 该 返回 更 新 后 的 文件 名 。 


14.2.4 删除 电子 表格 
要 删除 一 个 包子 表格 ， 请 调用 delete( ) 方 法 : 


>>> import ezsheets 

>>> ss = ezsheets.createSpreadsheet('Delete me') # Create the spreadsheet. 

>>> ezsheets.listSpreadsheets() # Confirm that we've created a Spreadsheet . 
{'1aCw2NNJSZbiDbhygVv77kPsL3djmgV5zJZ11SOZ mRk': “Delete me'} 

>>> Ss.delete() # Delete the spreadsheet. 

>>> ezsheets.1listSpreadsheets () 


{} 

delete( ) 方 法 会 将 你 的 电子 表格 移动 到 Google Drive 的 Trash 文件 夹 中 。 你 可 以 在 Google 
云端 硬盘 中 查看 你 的 Trash 文件 夹 的 内 容 。 要 永久 删除 你 的 电子 表格 , 请 为 permanent 关键 字 
参数 传 入 True: 

>>> ss.delete(permanent=True) 

一 般 来 说 ， 永 久 删 除 电子 表格 并 不 是 一 个 好 主意 ， 因 为 要 恢复 一 个 被 你 的 脚本 中 的 bug 意 
外 删除 的 电子 表格 是 不 可 能 的 。 即 使 是 免费 的 Google Drive 账户 也 有 千 兆 字 节 的 可 用 存储 空间 ， 
因此 你 基本 上 不 需要 担心 空间 不 够 的 问题 。 


14.3 ”工作 表 对 象 
一 个 Spreadsheet 对 象 将 有 一 个 或 多 个 Sheet 对 象 。 Sheet 对 象 表示 每 个 工作 表 中 的 数 


据 的 行 和 列 。 你 可 以 使 用 方 括号 操作 符 和 整数 索引 来 访问 这 些 工作 表 。 
Spreadsheet 对 象 的 sheets 属性 保存 了 一 个 元 组 ， 其 中 包含 的 Sheet 对 象 按照 它们 在 
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电子 表格 中 出 现 的 顺序 排列 。 要 访问 电子 表格 中 的 Sheet 对 象 , 请 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import ezsheets 

>>> ss = ezsheets.Spreadsheet('1J-Jx6Ne2K vqI9J2SO-TAXOFbxx_9tUjwnkPC22LjeU') 
>>> ss.sheets # The Sheet objects in this Spreadsheet, in order. 

(<Sheet sheetId=1669384683, title='Classes', rowCount=1000, columnCount=26>, 
<Sheet SheetId=151537240， title='Resources', rowCount=1000, columnCount=26>) 
>>> ss.sheets[0] # Gets the first Sheet object in this Spreadsheet. 

<Sheet sheetId=1669384683, title='Classes', rowCount=1000, columnCount=26> 
>>> ss[0] # Also gets the first Sheet object in this Spreadsheet. 
<Sheet sheetId=1669384683, title='Classes', rowCount=1000, columnCount=26> 


你 也 可 以 用 方 括号 操作 符 和 表 的 名 称 字 符 串 来 获取 一 个 Sheet 对 象 。Spreadsheet 对 象 的 
sheetTitles 属性 保存 了 一 个 元 组 ， 该 元 组 包括 所 有 工作 表 标 题 。 例 如 ， 在 交互 式 环境 中 输入 以 
下 内 容 : 


>>> ss.sheetTitles # The titles of all the Sheet objects in this Spreadsheet. 
('Classes', 'Resources') 

>>> ss['Classes'] # Sheets can also be accessed by title. 

<Sheet sheetId=1669384683, title='Classes', rowCount=1000, columnCount=26> 


一 旦 你 拥有 了 一 个 Sheet 对 象 ， 就 可 以 使 用 Sheet 对 象 的 方法 从 它 读 取 数据 或 向 它 写 入 
数据 了 ， 这 将 在 下 一 小 节 中 解释 。 


14.3.1 读 取 和 写 入 数据 


就 像 在 Excel 中 一 样 ，Google Sheets 工作 表 也 有 包含 数据 的 、 成 列 成 行 的 单元 格 。 你 可 以 
使 用 方 括号 操作 符 来 读 取 和 写 入 这 些 单元 格 中 的 数据 。 例 如 ， 要 创建 一 个 新 的 电子 表格 并 向 其 
添加 数据 ， 请 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import ezsheets 

>>> ss = ezsheets.createSpreadsheet('My Spreadsheet ') 

>>> sheet = ss[0] # Get the first sheet in this spreadsheet. 
>>> sheet.title 


'Sheet1’' 
>>> Sheet = ss[0] 
>>> sheet['A1'] = “Name' # Set the value in cell Al1， 


>>> sheet['B81'] = “Age' 

>>> sheet['C1'] = “Favorite Movie' 

>>> Sheet['A1'] # Read the value in cell Al. 
'Name' 

>>> sheet['A2'] # Empty cells return a blank string. 


>>> sheet[2, 1] # Column 2, Row 1 is the same address as Bi1. 
'Age 

>>> sheet['A2'] = 'Alice' 
>>> sheet['B2'] = 30 

>>> sheet['C2'] = “RoboCcop' 


这 些 指令 能 生成 一 个 图 14-5 所 示 的 Google Sheets 电子 表格 。 

多 个 用 户 可 以 同时 刷新 一 个 工作 表 。 要 刷新 Sheet 对 象 中 的 本 地 数据 ， 请 调用 它 的 
refresh() 方 法 : 

RE 

当 第 一 次 加 载 Spreadsheet 对 象 时 ，Sheet 对 象 中 的 所 有 数据 都 会 被 加 载 ， 所 以 数据 可 以 立 
即 读 取 。 但 是 ， 将 值 写 入 在 线 电 子 表格 需要 连接 网 络 ， 需 要 大 约 1 秒 的 时 间 。 如 果 你 有 成 千 上 万 个 
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单元 格 需 要 更 新 ， 那 么 一 次 更 新 一 个 单元 格 可 能 会 相当 慢 。 


File Edit View Insert Format Data Tools Addons 


六 区 和 10 SA 00 123 An 


| 
二 潮 Sheet1 ™ 


图 14-5 根据 示例 指令 创建 的 电子 表格 
列 和 行 寻 址 


单元 格 寻 址 在 Google Sheets 中 的 工作 原理 就 像 在 Excel 中 的 一 样 。 唯 一 的 区 别 在 于 ， 与 
Python 的 基于 0 的 列表 索引 不 同 ，Google Sheets 的 列 和 行 基于 1: 第 一 个 列 或 行 位 于 索引 1， 
而 不 是 0。 你 可 以 用 convertAddress() 函数 将 'A2 ' 字 符 串 式 的 地 址 转换 为 〈《 列 、 行 ) 元 组 风 
格 的 地 址 (反之 亦 然 )。getColLumnLetterof() 和 getCcolumnNumberof () 函 数 也 会 完成 字母 
和 数字 之 间 的 列 地 址 转换 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import ezsheets 

>>> ezsheets.convertAddress('A2') # Converts addresses... 

(1, 2) 

>>> ezsheets.convertAddress(1, 2) # ...and converts them back, too. 
1 

>>> ezsheets.getColumnLetterOf(2) 

机 


>>> ezsheets.getColumnNumberOf('B') 
>>> ezsheets.getColumnLetterOf(999) 
'ALK' 


>>> ezsheets .getCcolumnNumberof ( 'ZZZ ') 
18278 


如 果 你 在 源 代 码 中 输入 地 址 ， 那 么 使 用 'A2 ' 字 符 串 式 的 地 址 很 方便 。 但 是 ， 如 果 你 要 在 -- 
个 地 址 范围 内 循环 使 用 〈 列 、 行 ) 元 组 样式 的 地 址 ， 并 且 需 要 列 的 数字 形式 ， 那 么 使 用 〈 列 、 
行 ) 元 组 样式 的 地 址 就 很 方便 。 使 用 convertAddress() 、getCcolumnLetterof () 和 
getColumnNumberof ( ) 函数 有 助 于 你 在 再 要 的 两 种 格式 之 间 进 行 转换 。 

读 取 和 写 人 整 列 和 整 行 的 内 容 


如 前 所 述 ， 一 次 写 一 个 单元 格 的 数据 往往 会 花费 太 多 时 间 。 幸 运 的 是 ，EZSheets 有 Sheet 
方法 可 以 同时 读 写 整 列 和 整 行 .getColumn()、getRow()、updateColumn() 和 updateRow() 


14.3 工作 表 对 象 269 


方法 将 分 别 读 取 和 写 入 列 和 行 。 这 些 方法 会 向 Google Sheets 服务 器 发 出 请 求 , 以 更 新 电子 表格 ， 
因此 它们 需要 你 连接 到 因特网 。 在 本 节 的 例子 中 ， 我 们 将 上 传 上 一 章 中 的 produceSales.xlsx 到 
Google Sheets。 前 8 行 如 表 14-1 所 示 。 


表 14-1 produceSales.xlsx 电子 表格 的 前 8 行 


A B C D 
1 PRODUCE COST PER POUND POUNDS SOLD TOTAL 
这 Potatoes 0.86 21.6 18.58 
3 Okra 2.26 .38.6 8724 
14 Fava beans 2.69 32.8 88.23 
S Watermelon 0.66 3 18.02 
6 Garlic 1.19 4.9 5.83 
7 Parsnips 2.21 1.1 pF 
8 Asparagus 2.49 379 94.37 


要 上 传 这 个 电子 表格 ， 请 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import ezsheets 

>>> SS = ezsheets.upload('produceSales.xlsx') 

>>> Sheet = ss[0] 

>>> sheet.getRow(1) # The first row is row 1, not row 0. 


['PRODUCE', 'COST PER POUND', 'POUNDS SOLD', 'TOTAL', '', ''] 
>>> Sheet.getRow(2) 
I POLatoes .000 ela ys 148.08 


>>> columnOne = sheet.getColumn(1) 

>>> Sheet.getcolumn(1) 

['PRODUCE', ‘Potatoes', ‘Okra', 'Fava beans', ‘'Watermelon', 'Garlic' ， 
--SNip-- 

>>> sheet.getColumn('A') # Same result as getColumn(1) 

['PRODUCE', ‘Potatoes', ‘Okra', 'Fava beans', 'Watermelon', 'Garlic', 


--Snip-- 

>>> Sheet.getRow(3) 

人 

>>> sheet.updateRow(3, ['Pumpkin’, '11.50', '20', '230']) 
>>> sheet.getRow(3) 

a a ~ 

>>> columnOne = sheet.getColumn(1) 


>>> for i, value in enumerate(columnOne): 
# Make the Python list contain Uppercase strings: 
columnOne[i] = value.upper() 


>>> sheet.updateColumn(1, columnOne) # Update the entire column in one 
request. 


getRow( ) 和 和 getColumn() 函 数 从 特定 行 或 列 中 的 每 一 个 单元 格 中 获取 数据 ， 以 作为 一 个 
值 的 列表 。 注 意 ， 衬 的 单元 格 在 列表 中 会 变 成 空 字符 串 值 。 你 可 以 给 getColumn( ) 函数 传递 一 个 
列 号 或 字母 ， 告 诉 它 检索 特定 列 的 数据 。 上 一 个 例子 显示 ，getColumn(1) 和 getColumn('A') 
返回 的 是 同一 个 列表 。 

updateRow() 和 updateCcolumn( ) 团 数 用 传 入 函数 的 值 列 表 , 分 别 履 盖 该 行 或 该 列 中 的 所 
有 数据 。 在 这 个 例子 中 ， 第 3 行 最 初 包含 了 关于 秋 共 (okra) 的 信息 ， 但 是 调用 updateRow() 函 
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数 会 用 pumpkin 的 数据 来 代替 它 。 再 次 调用 sheet .getRow(3)， 查 看 第 3 行 中 的 新 值 。 

接 下 来 ， 让 我 们 更 新 produceSales 电子 表格 。 如 果 你 有 很 多 单元 格 需 要 更 新 ， 那 么 一 次 更 新 一 
个 单元 格 会 很 慢 。 以 一 个 列表 的 方式 获取 一 列 或 一 行 ， 更 新 这 个 列表 ， 然 后 用 这 个 列表 更 新 整 列 或 
整 行 ， 这 会 快 得 多 ， 因 为 所 有 的 更 改 都 可 以 在 一 次 请 求 中 进行 。 

要 一 次 性 获得 所 有 行 ， 可 以 调用 getRows ( ) 方 法 ， 它 返回 一 个 列表 的 列表 。 外 层 列表 中 的 一 
个 内 层 列 表 代 表 了 工作 表 中 一 个 单独 的 行 。 你 可 以 修改 这 个 数据 结构 中 的 值 来 改变 部 分 行 的 产品 名 
称 、 销 售 的 磅 数 和 总 成 本 。 然 后 在 交互 式 环境 中 输入 以 下 内 容 ， 将 它 传 递 给 updateRows ( ) 方 法 : 


>>> rows = sheet.getRows() # Get every row in the Spreadsheet . 
>>> rows[0] # Examine the values in the first row. 

['PRODUCE' , 'COST PER POUND', 'POUNDS SOLD', 'TOTAL', '',"'] 

>>> rows[1] 

I*POTATOES’ , "0868, "21.80", .56 

>>> rows[1][0] = ‘PUMPKIN' # Change the produce name. 

>>> rows[1] 

"3 

>>> rows[10] 

EMOKRRA SS “226 40 “00 

>>> rows[10][2] = '400' # Change the pounds sold. 

>>> rows[10][3] = '904' # Change the total. 

>>> rows[10] 

OKRA ‘2.206” "400" 904 "3 

>>> sheet. updateRows (rows) # ee the online spreadsheet with the changes. 


你 可 以 在 一 次 请 求 中 更 新 整个 工作 表 ， 方 法 是 将 getRows () 返 回 的 列表 的 列表 传递 给 
updateRows()， 其 中 包含 了 对 第 1 行 和 第 10 行 的 修改 。 

注意 ，Google Sheets 中 的 行 在 结尾 处 有 空 字符 串 。 这 是 因为 上 传 的 表 的 列 数 为 6， 但 我 们 
只 有 4 列 数据 。 你 可 以 通过 rowCount 和 columnCount 属性 读 取 表 中 的 行 数 和 列 数 ， 然 后 设 
置 这 些 值 ， 就 可 以 改变 表 的 大 小 : 


>>> sheet.rowCount # The number of rows in the sheet. 

23758 

>>> sheet.columnCount # The number of columns in the sheet. 

6 

>>> sheet.columnCount = 4 # Change the number of columns to 4. 

>>> sheet.columnCount # Now the number of columns in the sheet is 4. 
4 


这 些 指令 应 删除 produceSales 电子 表格 的 第 5 列 和 第 6 列 ， 如 图 14-6 所 示 。 
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图 14-6 ”将 列 数 改 为 4 之 前 ( 左 ) 和 之 后 ( 右 ) 的 工作 表 
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根据 官方 的 描述 文档 ，Google Sheets 电子 表格 可 以 有 多 达 500 万 个 单元 格 。 但 是 ， 最 好 只 
用 需要 大 小 的 电子 表格 ， 以 减少 更 新 和 刷新 数据 所 需 的 时 间 。 


14.3.2 创建 和 删除 工作 表 


所 有 的 Google Sheets 电子 表格 都 是 从 一 个 名 为 Sheetl 的 单 张 表 开 始 的 。 可 以 用 createSheet() 
方法 将 额外 的 工作 表 添 加 到 工作 表 列 表 的 末尾 ， 并 传 入 一 个 字符 串 作为 新 工作 表 的 标题 。 可 选 
的 第 二 个 参数 可 以 指定 新 工作 表 的 整数 索引 。 要 创建 一 个 电子 表格 ， 然 后 向 其 中 添加 新 的 工作 
表 ， 请 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import ezsheets 

>>> SS = ezsheets.createSpreadsheet('Multiple Sheets') 

>>> ss.sheetTitles 

('Sheet1°',) 

>>> ss.createSheet('Spam') # Create a new Sheet at the end of the list of sheets. 
<Sheet sheetId=2032744541, title='Spam', rowCount=1000, columnCount=26> 

>>> ss.createSheet('Eggs') # Create another new sheet. 

<Sheet sheetId=417452987, title='Eggs'’, rowCount=1000, columnCount=26> 

>>> ss.sheetTitles 

('Sheet1', 'Spam', 'Eggs') 

>>> ss.createSheet('Bacon', 0) # Create a Sheet at index 0 in the list of sheets. 
<Sheet sheetId=814694991, title='Bacon', rowCount=1000, columnCount=26> 

>>> ss.sheetTitles 

('Bacon', 'Sheet1', 'Spam' ，“EggS ' ) 


这 些 指 令 在 电子 表格 中 增加 了 3 个 新 表 : Bacon、Spam 和 Eggs (除了 默认 的 Sheetl 之 外 )。 
电子 表格 中 的 工作 表 是 有 序 的 ， 新 的 工作 表 会 排 在 列表 的 最 后 ， 除 非 你 向 createSheet () 传 
入 第 二 个 参数 来 指定 工作 表 的 索引 。 在 这 里 ， 你 在 索引 0 处 创建 了 名 为 Bacon 的 表 ， 使 Bacon 
成 为 电子 表格 中 的 第 一 个 表 ， 并 将 其 他 3 个 表 向 后 移 了 一 个 位 置 。 这 与 列表 方法 insert() 的 
行为 类 似 。 

你 可 以 看 到 屏幕 底部 的 标签 页 上 的 新 表 ， 如 图 14-7 所 示 。 
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图 14-7 添加 Spam、Eggs 和 Bacon 表 后 的 “多 工作 表 ” 电 子 表格 
Sheet 对 象 的 delete() 方 法 将 从 电子 表格 中 删除 该 工作 表 。 如 果 你 想 保 留 该 工作 表 ， 但 
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删除 它 所 包含 的 数据 ， 请 调用 clear () 方 法 来 清除 所 有 单元 格 ， 使 之 成 为 空白 工作 表 。 在 交互 
式 环境 中 输入 以 下 内 容 : 


>>> ss.sheetTitles 

('Bacon', 'Sheet1', 'Spam', 'Eggs') 

>>> ss[0] .delete() # Delete the sheet at index 0: the “Bacon” sheet. 
>>> ss.sheetTitles 

('Sheet1', 'Spam'’, 'Eggs') 

>>> ss['Spam'].delete() # Delete the "Spam” sheet . 

>>> SS .SheetTitles 

('Sheet1', 'Eggs') 


>>> sheet = ss['Eggs'] # Assign a variable to the "Eggs" sheet. 

>>> sheet.delete() # Delete the "Eggs" Sheet . 

>>> ss.sheetTitles 

('Sheet1"',) 

>>> ss[0].clear() # Clear all the cells on the "Sheet1" sheet. 
>>> ss.sheetTitles # The "Sheet1" sheet is empty but still exists. 


('Sheet1°',) 


删除 工作 表 是 永久 性 的 ， 没 有 办 法 恢复 数据 。 但 是 ， 你 可 以 使 用 copyTo() 方 法 将 表 复 制 
到 另 一 个 电子 表格 中 ， 从 而 进行 备份 ， 这 将 在 下 一 小 节 中 解释 。 


14.3.3 ”复制 工作 表 


每 个 Spreadsheet 对 象 都 有 一 个 有 序列 表 ， 该 列表 包含 了 它 的 Sheet 对 象 ， 你 可 以 使 用 
这 个 列表 来 重新 排序 (如 上 一 小 节 所 示 )， 或 将 它 复 制 到 其 他 电子 表格 中 。 要 将 一 个 Sheet 对 
象 复制 到 另 一 个 Spreadsheet 对 象 , 请 调用 copyTo () 方 法 。 将 目标 Spreadsheet 对 象 作为 
参数 传递 给 它 。 要 创建 两 个 电子 表格 ， 并 将 第 一 个 电子 表格 的 数据 复制 到 另 一 个 电子 表格 中 ， 
请 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import ezsheets 

>>> ss1 = ezsheets.createSpreadsheet('First Spreadsheet') 

>>> SS2 = ezsheets.createSpreadsheet('Second Spreadsheet') 

>>> ss1[0] 

<Sheet sheetId=0, title='Sheet1', rowCount=1000, columnCount=26> 

>>> ss1i[0].updateRow(1, ['Some', 'data'，'in'， 'the'， ‘first', "row']) 
>>> Ss1[0].copyTo(SS2) # Copy the ssi's Sheet1 to the ss2 Spreadsheet . 
>>> ss2.sheetTitles # SS2 now contains a copy of ssi's Sheet1 . 
('Sheet1', 'Copy of Sheet1') 


请 注意 ， 由 于 目标 电子 表格 (上 面 例 子 中 的 ss2) 已 经 有 一 个 名 为 Sheet1 的 工作 表 ， 因 
此 复制 的 工作 表 海 被 命名 为 Copy of Sheet1。 被 复制 的 工作 表 将 出 现在 目标 电子 表格 的 列表 
的 最 后 。 如 果 你 愿意 ， 可 以 更 改 它 们 的 索引 属性 ， 在 新 的 电子 表格 中 重新 排序 。 


14.4 利用 Google Sheets 配额 


因为 Google Sheets 是 在 线 的 ， 所 以 很 容易 在 多 个 用 户 之 间 共 享 工 作 表 ， 这 些 用 户 可 以 同时 
访问 工作 表 。 但 是 ， 这 也 意味 者 读 取 和 更 新 表 的 速度 会 比 读 取 和 更 新 存储 在 便 盘 上 的 Excel 文 
件 要 慢 。 此 外 ， Cin Sheets 对 可 以 执行 的 读 写 操作 数量 也 有 限制 。 

根据 Google 的 开发 者 指南 ， 用户 每 天 最 多 只 能 创建 250 个 新 的 电子 表格 ， 免 费 的 Google 账户 
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每 100 秒 可 以 执行 100 次 读 取 和 100 次 写 入 请 求 。 试 图 超过 这 个 限度 将 引发 googleapiclient. 
errors.HttpError: Quota exceeded for quota group 异常 。EZSheets 会 自动 捕捉 到 
这 个 异常 并 重 试 请 求 。 当 这 种 情况 发 生 时 ， 读 取 或 写 入 数据 的 函数 调用 将 需要 几 秒 (甚至 需要 
一 两 分 钟 ) 才能 返回 。 如 果 请 求 继续 失败 〈 如 果 另 一 个 使 用 相同 证 书 的 脚本 也 在 提出 请 求 ， 这 
是 有 可 能 的 )，EZSheets 将 重新 抛 出 这 个 异常 。 

这 意味 着 有 时 你 的 EZSheets 方法 调用 可 能 需要 几 秒 的 时 间 才 会 返回 。 如 果 你 想 查 看 你 的 
API 使 用 量 或 增加 你 的 配额 ， 请 访问 Google Cloud Platform 的 IAM & Admin Quotas 页 面 ， 了 解 
如 何 为 增加 的 使 用 量 付费 。 如 果 你 想 要 自己 处 理 HttpError 异常 ， 可 以 将 ezsheets.IGNORE 
QUOTA 设置 为 True， 当 EZSheets 的 方法 遇 到 这 些 异常 时 ， 它 就 会 抛 出 这 些 异 常 。 


14.5 小结 


Google Sheets 是 一 个 流行 的 在 线 电 子 表格 应 用 程序 ， 可 在 浏览 器 中 运行 。 使 用 EZSheets 
第 三 方 模块 ， 你 可 以 下 载 、 创 建 、 读 取 和 修改 电子 表格 。EZSheets 将 电子 表格 表示 为 
Spreadsheet 对 象 ， 每 个 电子 表格 包含 一 个 有 序 的 Sheet 对 象 列表 。 每 个 电子 表格 都 有 成 行 
和 成 列 的 数据 ， 你 可 以 通过 多 种 方式 读 取 和 更 新 。 

虽然 Google Sheets 使 共享 数据 和 协同 编辑 变 得 很 容易 ， 但 它 的 主要 缺点 是 速度 问题 : 你 必 
须 用 Web 请 求 更 新 电子 表格 ， 而 这 可 能 需要 几 秒 的 时 间 来 执行 。 但 对 于 大 多 数目 的 ， 这 种 速度 
限制 不 会 影响 使 用 EZSheets 的 Python 脚本 。Google Sheets 还 限制 了 你 可 以 进行 修改 的 频 度 。 


14.6 ”习题 


.EZSheets 需要 哪 3 个 文件 来 访问 Google Sheets? 
.EZSheets 有 哪 两 种 类 型 的 对 象 ? 
.如 何 从 Google Sheets 电子 表格 中 创建 一 个 Excel 文件 ? 
， 如何 从 Excel 文件 中 创建 Google Sheets 电子 表格 ? 
5. SS 变量 包含 一 个 Spreadsheet 对 象 。 什 么 代码 将 从 标题 为 Students 的 表格 中 的 B2 单 
元 格 读 取 数 据 ? 
6. 如 何 得 到 999 列 的 列 字母 ? 
7. 如 何 找 出 一 个 工作 表 有 多 少 行 和 多 少 列 ? 
8. 如 何 删 除 一 个 电子 表格 ?这 种 删除 是 永久 的 吗 ? 
9. 哪些 函数 将 分 别 创 建 一 个 新 的 Spreadsheet 对 象 和 一 个 新 的 Sheet 对 象 ? 
10. 如 果 频 繁 地 使 用 EZSheets 发 出 读 写 请 求 , 超过 了 Google 账户 的 配额 , 会 有 什么 后 果 ? 


14.7 ”实践 项 目 
作为 实践 ， 编 程 执行 以 下 任务 。 


人 ID 一 
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14.7.1 下 载 Google Forms 数据 


Google Forms 允许 你 创建 简单 的 在 线 表 单 ， 让 你 轻松 收集 人 们 的 信息 。 他 们 输入 的 信息 
存储 在 一 个 Google Sheets 中 。 对 于 这 个 项 目 ， 写 一 个 程序 ， 使 其 可 以 自动 下 载 用 户 提交 的 
表单 信息 。 转 到 Google 表单 ， 开 始 编写 一 个 新 的 表单 ; 它 将 是 空白 的 。 在 表格 中 添加 询问 
用 户 姓 名 和 电子 邮件 地 址 的 字段 。 然 后 单 击 右 上 角 的 Send 按钮 ， 获 得 你 的 新 表单 的 一 个 链 
接 。 尝 试 在 这 个 表单 中 输入 几 个 示例 回复 。 

在 表单 的 Responses 标签 页 上 ， 单 击 绿色 的 Create Spreadsheet 按钮 以 创建 一 个 电子 表格 ， 
用 来 保存 用 户 提交 的 回复 。 你 应 该 在 这 个 电子 表格 的 前 几 行 中 看 到 你 的 示例 回复 。 然 后 使 用 
EZSheets 编写 一 个 Python 脚本 来 收集 这 个 电子 表格 上 的 电子 邮件 地 址 列表 。 


14.7.2 ”将 电子 表格 转换 为 其 他 格式 


你 可 以 使 用 Google Sheets 将 电子 表格 文件 转换 为 其 他 格式 。 编 写 一 个 脚本 ， 将 提交 的 文件 
传递 给 upload()。 一 旦 电子 表格 上 传 到 Google Sheets， 就 使 用 downloadAsExcel()、 
downloadAs0DS( ) 以 及 其 他 类 似 的 函数 下 载 它 ， 从 而 创建 该 电子 表格 的 其 他 格式 的 副本 。 


14.7.3 ”查找 电子 表格 中 的 错误 


在 “ 数 豆子 ”办 公 室 忙活 了 一 天 ， 我 完成 了 一 个 电子 表格 : 把 所 有 的 豆子 总 数 上 传 到 Google 
Sheets。 这 个 电子 表格 是 可 以 公开 查看 的 〈 但 不 能 编辑 )。 你 可 以 用 下 面 的 代码 获得 这 个 电子 表格 : 


>>> import ezsheets 
>>> SS = ezsheets.Spreadsheet('1jDZEdvSIh4TmZxccyy0ZXrH-ELlrwq8_YYiZrE0B4jg') 


你 可 以 在 本 书 配套 资源 中 查看 这 个 电子 表格 。 这 个 电子 表格 的 第 一 张 表 的 列 是 Beans per 
Jar、Jars 和 Total Beans。Total Beans 列 是 Beans per Jar 和 Jars 列 中 的 数字 的 乘积 。 但 是 ， 在 这 
张 表 格 中 的 15 000 行 中 ， 有 一 行 是 错误 的 。 行 数 太 多 ， 无 法 手动 核对 。 幸 运 的 是 ， 你 可 以 写 一 个 
脚本 来 检查 每 一 行 的 总 数 。 

提示 一 下 ， 你 可 以 用 ss[0] .getRow(rowNum) 来 访问 一 行 中 的 各 个 单元 格 ， 其 中 ss 是 
Spreadsheet 对 象 ，rowNum 是 行 号 。 记 住 ，Google Sheets 中 的 行 号 以 1 开始 ， 而 不 是 以 0 开 
始 。 单 元 格 的 值 将 是 字符 串 ， 因 此 你 需要 将 它们 转换 为 整数 ， 这 样 你 的 程序 就 可 以 使 用 它们 了 。 如 
果 该 行 的 总 数 是 正确 的 ， 表 达 式 int (ss[0] .getRow(2)[0]) * int(sss[0]. getRow(2)[1]) 
== int (sss[0] .getRow(2)[2] ) 就 会 求 值 为 True。 将 这 段 代 码 放 在 一 个 循环 中 ， 以 确定 表 中 
哪 一 行 的 总 数 不 正 确 。 


处 理 PDF 和 Word 文 档 


PDF 和 Word 文档 是 二 进 制 文件 ， 它 们 比 纯 文本 文件 要 复杂 得 多 。 除 
了 文本 ， 它 们 还 保存 了 许多 字体 、 颜 色 和 布局 信息 。 如 果 希 望 程序 能 读 取 
或 写 入 PDF 和 Word 文档 ， 那 么 需要 做 的 就 不 只 是 将 它们 的 文件 名 传递 给 
open() 了 。 

好 在 有 一 些 Python 模块 使 得 处 理 PDF 和 Word 文档 变 得 容易 。 本 章 将 


介绍 两 个 这 样 的 模块 : PyPDF2 和 python-docx。 
二 


视频 讲解 


15.1 PDF 文档 


PDF 表示 Portable Document Format， 使 用 .pdf 文件 扩展 名 。 虽 然 PDF 支 
持 许多 功能 ， 但 本 章 将 专注 于 最 常 做 的 两 件 事 : 从 PDF 读 取 文本 内 容 和 从 已 有 的 文档 生成 新 的 
PDF。 

用 于 处 理 PDF 的 模块 是 PyPDF2 版 本 1.26.0。 安 装 这 个 版 本 很 重要 ， 因 为 PyPDF2 的 未 来 
版 本 可 能 与 本 书 的 代码 不 兼容 。 要 安装 它 ， 就 要 在 命令 行 运 行 pip install--user 
PyPDF2==1 .26.0。 这 个 模块 名 称 是 区 分 大 小 写 的 ， 要 确保 y 是 小 写 ， 其 他 字母 都 是 大 写 (请 
查看 附录 A， 了 解 安 装 第 三 方 模块 的 所 有 细节 )。 如 果 该 模块 安装 正确 ， 那 么 在 交互 式 环 境 中 运 
行 jmport PyPDF2， 应 该 不 会 显示 任何 错误 。 


的 PDE 格式 
“虽然 EDF 文档 对 文本 布局 非常 好 ,让 人 们 很 容易 打印 并 阅读 ,但 软件 要 将 它们 解析 为 纯 广 
本 却 并 不 容易 ; ;因此 ,PyPDF2 从 PDF 提取 文本 时 可 能 会 出 错 ， 甚 至 根本 不 能 打开 某 些 PDF. 
遗憾 的 是 ， 你 对 此 没有 什么 办 法 ，PyPDF2 可 能 就 是 不 能 处 理 某 些 PDF 文档 。 话 虽 如 此 ， 但 是 
我 至 今 没 有 发 现 不 能 用 PyPDF2 打开 的 PDF 文档 . 


15.1.1 从 PDF 提取 文本 
PyPDF2 没有 办 法 从 PDF 文档 中 提取 图 像 、 图 表 或 其 他 媒体 ， 但 它 可 以 提取 文本 ， 并 将 
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文本 返回 为 Python 字符 串 。 为 了 学 习 PyPDF2 的 工作 原理 ， 我 们 将 它 用 于 一 个 示例 PDF， 如 
15-1 所 示 。 


0 omey 


OFFICIAL BOARD MINUTES 
Meeting of March 7, 2014 


15-1 PDF 页面， 我 们 将 从 中 提取 文本 
从 异步 社区 本 书 对 应 页 面 下 载 这 个 PDF 文档 ， 并 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import PyPDF2 
>>> pdfFile0bj = open('meetingminutes.pdf', 'rb') 
>>> pdfReader = PyPDF2.PdfFileReader (pdfFile0bj ) 
@ >>> pdfReader.numPages 
19 
@ >>> page0bj = pdfReader .getPage(0) 
© >>> page0bj .extractText() 
'00FFFFIICCIIAALL BBOOAARRDD MMIINNUUTTEESS Meeting of March 7， 
2015 \n The Board of Elementary and Secondary Education shall 
provide leadership and create policies for education that expand opportunities 
for children, empower families and communities，and advance Louisiana in an 
increasingly competitive global market. BOARD of ELEMENTARY and SECONDARY 
EDUCATION 
>>> pdfFile0bj.close() 


首先 导入 PyPDF2 模块 。 然 后 以 读 二 进 制 模式 打开 meetingminutes.pdf， 并 将 它 保 存在 
pdfFile0bj 中 。 为 了 取得 表示 这 个 PDF 的 PdfFileReader 对 象 ， 请 调用 PyPDF2.PdfFileReader() 
并 向 它 传 入 pdfFile0bj。 将 这 个 PdfFileReader 对 象 保存 在 pdfReader 中 。 

该 文档 的 总 页 数 保存 在 PdfFileReader 对 象 的 numPages 属性 中 @ ,示例 PDF 文档 有 19 
页 ， 但 我 们 只 提取 第 一 页 的 文本 。 

要 从 一 页 中 提取 文本 ， 需 要 通过 PdfFileReader 对 象 取得 一 个 Page 对 象 ， 它 表示 PDF 
中 的 一 页 。 可 以 调用 PdfFileReader 对 象 的 getPage() 方 法 @， 辣 它 传 入 感 兴趣 的 页 公 (在 
我 们 的 例子 中 是 0)， 从 而 取得 Page 对 象 。 

PyPDF2 在 取得 页 面 时 使 用 从 0 开始 的 索引 : 第 一 页 是 0 页 ， 第 二 页 是 1 页 ， 以 此 类 推 。 事 情 
总 是 这 样 ， 即 使 文档 中 页 面 的 页 码 不 同 。 例 如 ， 假 定 你 的 PDF 是 从 一 个 较 长 的 报告 中 抽取 出 的 3 
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页 , 它 的 页 码 分 别 是 42、43 和 44。 要 取得 这 个 文档 的 第 一 页 , 需要 调用 pdfReader .getPage(0)， 
而 不 是 getPage(42) 或 getPage(1)。 

在 取得 Page 对 象 后 ， 调 用 它 的 extractText ( ) 方 法 ， 以 返回 该 页 文本 的 字符 串 @。 文本 提 
取 并 不 完美 : 该 PDF 中 的 文本 Charles E.“Chas”Roemer, President 在 函数 返回 的 字符 串 中 消失 了 ， 
而 且 空 格 有 时 候 也 会 没有 。 但 是 ， 这 种 近似 的 PDF 文本 内 容 ， 可 能 对 你 的 程序 来 说 已 经 足够 了 。 


15.1.2 解密 PDF 


某 些 PDF 文档 有 加 密 功 能 ， 以 防止 别人 阅读 ， 只 有 在 打开 文档 时 提供 口令 才能 阅读 。 在 交互 
式 环境 中 输入 以 下 代码 ， 处 理 下 载 的 PDF， 它 已 经 用 口令 rosebud 加 密 : 


>>> import PyPDF2 


>>> pdfReader = PyPDF2.PdfFileReader(open('encrypted.pdf', ‘'rb')) 
@ >>> pdfReader.isEncrypted 
True 


>>> pdfReader .getPage(0) 
@ Traceback (most recent call last) : 
File "<pyshell#173>", line 1, in <module> 
pdfReader .getPagel() 
--SNip-- 
File "C:\Python34\lib\site-packages\PyPDF2\pdf.py", line 1173, in getObject 
raise utils.PdfReadError("file has not been decrypted") 
PyPDF2.utils.PdfReadError: file has not been decrypted 
>>> pdfReader = PyPDF2.PdfFileReader(open('encrypted.pdf’, 'rb')) 
© >>> pdfReader.decrypt('rosebud') 
1 
>>> page0bj = pdfReader .getPage(0) 
所 有 PdfFileReader 对 象 都 有 一 个 isEncrypted 属性 ， 如 果 PDF 是 加 密 的 ， 它 就 是 
True; 如 果 不 是 ， 它 就 是 False@。 在 文件 用 正确 的 口令 解密 之 前 ， 尝 试 调用 函数 来 读 取 文件 


将 会 导致 错误 @。 


注意 : 由 于 PyPDF2 版 本 1.26.0 中 的 一 个 bug， 所 以 在 打开 加 密 的 PDF 之 前 调用 getPage() 会 导致 未 来 的 
getPage ( ) 调 用 失败 ， 并 出 现 以 下 错误 : IndexError: list index out of range。 
这 就 是 我 们 的 例子 用 一 个 新 的 PdfFileReader 对 象 重新 打开 文件 的 原因 。 


要 读 取 加 密 的 PDF， 就 调用 decrypt() 函数， 以 传 入 口令 字符 串 @。 在 用 正确 的 口令 调用 
decrypt() 后 , 你 会 看 到 调用 getPage ( ) 不 再 导致 错误 。 如 果 提 供 了 错误 的 口令 ,那么 decrypt() 
浮 数 将 返回 0， 并 日 getPage () 会 继续 失败 。 请 注意 ,decrypt () 函 数 只 解密 了 PdfFileReader 
对 象 ， 而 不 是 实际 的 PDF 文档 。 在 程序 中 止 后 ， 硬 盘 上 的 文件 仍然 是 加 密 的 。 在 程序 下 次 运行 时 ， 
仍然 需要 再 次 调用 decrypt()。 


15.1.3 创建 PDF 


在 PyPDF2 中 ， 与 PdfFileReader 对 象 相对 的 是 PdfFileWriter 对 象 ， 它 可 以 创建 一 
个 新 的 PDF 文档 。 但 PyPDF2 不 能 将 任意 文本 写 入 PDF， 不 像 Python 可 以 写 入 纯 文 本 文件 。 
PyPDF2 写 入 PDF 的 能 力 ， 仅 限于 从 其 他 PDF 中 复制 页 面 、 旋 转 页 面 、 重 登 页 面 和 加 密 文件 。 
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PyPDF2 不 允许 直接 编辑 PDF。 必 须 创 建 一 个 新 的 PDF， 然 后 从 已 有 的 文档 复制 内 容 。 本 
节 的 例子 将 遵循 这 种 一 般 方式 。 

1. 打开 一 个 或 多 个 已 有 的 PDF ( 源 PDF)， 得 到 PdfFileReader 对 象 。 

2. 创建 一 个 新 的 PdfFileWriter 对 象 。 

3. 将 页 面 从 PdfFileReader 对 象 复制 到 PdfFileWriter 对 象 中 。 

4. 利用 PdfFileWriter 对 象 写 入 输出 的 PDF。 

创建 一 个 PdfFileWriter 对 象 ， 只 是 在 Python 中 创建 了 一 个 代表 PDF 文档 的 值 ， 这 并 
没有 创建 实际 的 PDF 文件 .要 实际 生成 文件 , 必须 调用 PdfFileWriter 对 象 的 write() 方 法 。 

write() 方 法 接收 一 个 普通 的 File 对 象 ， 它 以 写 二 进 制 的 模式 打开 。 你 可 以 用 两 个 参数 
调用 Python 的 open( ) 函数 ， 得 到 这 样 的 File 对 象 : 一 个 是 要 打开 的 PDF 文件 名 字符 串 ; 
另 一 个 是 'wb'， 表 明文 件 应 该 以 写 二 进 制 的 模式 打开 。 

如 果 这 听 起 来 有 些 令 人 困惑 ， 不 用 担心 ， 在 接 下 来 的 代码 示例 中 你 会 看 到 这 种 工作 方式 。 


复制 页 面 


可 以 利用 PyPDF2， 从 一 个 PDF 文档 复制 页 面 到 另 一 个 PDF 文档 。 这 让 你 能 够 组 合 多 个 
PDF 文档 ， 去 除 不 想 要 的 页 面 或 调整 页 面 的 次 序 。 

从 异步 社区 本 书 对 应 页 面 下 载 meetingminutes.pdf 和 meetingminutes2.pdf， 放 在 当前 工作 目录 
中 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import PyPDF2 

>>> pdf1File = open('meetingminutes.pdf', 'rb’) 
>>> pdf2File = open('meetingminutes2.pdf', 'rb') 
>>> pdf1Reader = PyPDF2.PdfFileReader (pdf1File) 
>>> pdf2Reader = PyPDF2.PdfFileReader (pdf2File) 
>>> pdfWriter = PyPDF2.PdfFileWriter() 


>>> for pageNum in range(pdfiReader.numPages): 
@ page0bj = pdf1Reader .getPage(pageNum) 
© pdfwWriter .addPage(page0bj ) 

>>> for pageNum in range(pdf2Reader .numPages) : 
© page0bj = pdf2Reader .getPage(pageNum) 
© pdfWriter .addPage(page0bj ) 


@ >>> pdfOutputFile = open('combinedminutes.pdf', "wb ') 
>>> pdfWriter .write(pdfOutputFile) 
>>> pdfOutputFile.closel() 
>>> pdf1File.closel() 
>>> pdf2File.closel() 


以 读 二 进 制 的 模式 打开 两 个 PDF 文档 , 将 得 到 的 两 个 File 对 象 保 存在 pdf1File 和 pdf2File 
中 。 调 用 PyPDF2.PdfFileReader()， 传 入 pdf1File， 得 到 一 个 表示 meetingminutes. pdf 
的 PdfFileReader 对 象 @。 再 次 调用 PyPDF2.PdfFileReader(),， 传 入 pdf2File， 得 到 一 
个 表示 meetingminutes2. pdf 的 PdfFileReader 对 象 @。 然 后 创建 一 个 新 的 
PdfFileWriter 对 象 ， 它 表示 一 个 空白 的 PDF 文档 自 。 

接 下 来 ， 从 两 个 源 PDF 复制 所 有 的 页 面 ， 将 它们 添加 到 PdfFileWriter 对 月 。 在 
PdfFileReader 对 象 上 调用 getPage()， 取 得 Page 对 象 @。 然 后 将 这 个 Page 对 象 传递 给 
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PdfFileWriter 的 addPage() 方 法 @。 这 些 步 又 先是 针对 pdf1Reader 进行 ， 然 后 针对 
pdf2Reader 进行 。 在 完成 复制 页 面 后 ， 向 PdfFileWriter 的 write() 方 法 传 入 一 个 File 
对 象 ， 写 入 一 个 新 的 PDF 文档 ， 其 名 为 combinedminutes.pdf@。 


注意 : PyPDF2 不 能 在 PdfFileWriter 对 象 中 间 插 入 页 面 , addPage ( ) 方 法 只 能 够 在 末尾 添加 页 面 。 


现在 你 创建 了 一 个 新 的 PDF 文档 ,将 来 自 meetingminutes.pdf 和 meetingminutes2.pdf 
的 页 面 组 合 在 一 个 文档 中 。 要 记 住 ， 传 递 给 PyPDF2. PdfFileReader() 的 File 对 象 需 
要 以 读 二 进 制 的 模式 打开 ， 即 使 用 'rb ' 作 为 open() 的 第 二 个 参数 。 类 似 ， 传 入 PyPDF2. 
PdfFileWriter() 的 File 对 象 需要 以 写 二 进 制 的 模式 打开 ， 即 使 用 'wb ' 。 


旋转 页 面 


利用 rotateClockwise() 和 rotateCounterClockwise() 方 法 , PDF 文档 的 页 面 可 以 旋 
转 90 度 的 整数 倍 。 向 这 些 方法 传 入 整数 90、180 或 270 就 可 以 了 。 在 交互 式 环境 中 输入 以 下 代 
码 ， 同 时 将 meetingminutes.pdf 放 在 当前 工作 目录 中 : 


>>> import PyPDF2 
>>> minutesFile = open('meetingminutes.pdf', ‘rb') 
>>> pdfReader = PyPDF2.PdfFileReader (minutesFile) 
@ >>> page = pdfReader .getPage(0) 
© >>> page .rotateClockwise(90) 
{'/Contents': [IndirectObject(961, 0), IndirectObject(962, 0)， 
--SNip-- 
} 
>>> pdfWriter = PyPDF2.PdfFileWriter() 
>>> pdfWriter .addPage(page) 
© >>> resultpdfFile = open('rotatedPage.pdf', 'wb') 
>>> pdfWriter .write(resultpPdfFile) 
>>> resultpdfFile.closel() 
>>> minutesFile.closel() 


这 里 ， 我 们 使 用 getPage(0) 来 选择 PDF 的 第 一 页 @， 然 
后 对 该 页 调用 rotate Clockwise (90)@。 我 们 将 旋转 过 的 页 
面 写 入 一 个 新 的 PDF 文档 ， 并 保存 为 rotatedPage .pdf@。 

得 到 的 PDF 文档 有 一 个 页 面 , 顺 时 针 旋 转 了 90 度 , 如 图 15-2 
有 所 示 。rotateClockwise() 和 rotateCounterClockwise() 
的 返回 值 包含 许多 信息 ， 你 可 以 忽略 。 

登 加 页 面 

PyPDF2 也 可 以 将 一 页 的 内 容 倒 加 到 另 一 页 上 ， 这 可 以 用 
来 在 页 面 上 添加 公司 标志 、 时 间 惟 或 水 印 。 利 用 Python， 可 以 
很 容易 为 多 个 文件 添加 水 印 ， 并 且 只 针对 程序 指定 的 页 面 添加 。 

从 异步 社区 本 书 对 应 页 面 下 载 watermark.pdf， 将 它 和 图 15-2 rotatedPage.pdf 文档 ， 
meetingminutes.pdf 一 起 放 在 当前 工作 目录 中 。 然 后 在 交互 式 奥 面 腊 时 针 旋 轻 了 90 度 
环境 中 输入 以 下 代码 : 


© Zo forories Sones Hop 
| oe 1 1 jn 
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>>> import PyPDF2 

>>> minutesFile = open('meetingminutes.pdf', 'rb') 

>>> pdfReader = PyPDF2.PdfFileReader (minutesFile) 

>>> minutesFirstPage = pdfReader .getPage(0) 

>>> pdfWatermarkReader = PyPDF2.PdfFileReader (open( 'watermark.pdf', ‘rb')) 
minutesFirstPage.mergePage (pdfWatermarkReader .getPage(0)) 

>>> pdfWriter = PyPDF2.PdfFileWriter() 

>>> pdfWriter.addPage (minutesFirstPage) 


© O000@0e 
V 
Vv 
V 


>>> for pageNum in range(1，pdfReader .numPages) : 
page0bj = pdfReader .getPage(pageNum) 
pdfWriter .addPage(page0bj) 


>>> resultpdfFile = open('watermarkedCover.pdf', “wb ) 
>>> pdfWriter .write(resultpPdfFile) 

>>> minutesFile.closel() 

>>> resultpdfFile.closel() 


这 里 我 们 生成 了 meetingminutes pdf 的 PdfFileReader 对 象 @8。 调 用 getPage(0) 以 取得 第 一 
页 的 Page 对 象 ， 并 将 它 保存 在 minutesFirstPage 中 四 。 然 后 生成 watermark.pdf 的 
PdfFileReader 对 象 上 日 ,并 在 minutesFirstPage 上 调用 mergePage()@ .传递 给 mergePage() 
的 参数 是 watermark.pdf 第 一 页 的 Page 对 象 。 

既然 我 们 已 经 在 minutesFirstPage 上 调用 了 mergePage()， 那么 minutesFirstPage 
就 代表 加 了 水 印 的 第 一 页 。 我 们 创建 一 个 PdfFileWriter 对 象 @， 并 加 入 加 了 水 印 的 第 一 页 
@。 然 后 循环 遍历 meetingminutes.pdf 的 剩余 页 面 ， 将 它们 添加 到 PdfFileWriter 对 象 中 @。 
最 后 ， 我 们 打开 一 个 新 的 PDF 文档 watermarkedCoverpdf， 并 将 PdfFileWriter 的 内 容 写 入 
该 文档 。 

图 15-3 所 示 为 结果 。 新 的 PDF 文档 watermarkedCoverpdf 包含 meetingminutes. pdf 的 全 部 
内 容 ， 并 在 第 一 页 加 了 水 印 。 


i ee 
OFFPICIAL BOARD MINUTES 
| pieveme of mer 1 )014 


图 15-3 最初 的 PDF (左边 )、 水 印 PDF ( 中间 ) 以 及 合并 的 PDF (右边 ) 
加 密 PDF 
PdfFileWriter 对 象 也 可 以 为 PDF 文档 加 密 。 在 交互 式 环境 中 输入 以 下 代码 : 
>>> import PyPDF2 


>>> pdfFile = open('meetingminutes.pdf', 'rb') 
>>> pdfReader = PyPDF2.PdfFileReader(pdfFile) 
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>>> pdfWriter = PyPDF2.PdfFileWriter() 
>>> for pageNum in range(pdfReader .numPages) : 
pdfWriter.addPage (pdfReader .getPage(pageNum) ) 
@ >>> pdfWriter .encrypt('Swordfish') 
>>> resultPdf = open('encryptedminutes.pdf'，'wb') 
>>> pdfWriter .write(resultpdf) 
>>> resultPdf.close() 


在 调用 write() 方 法 保存 文档 之 前 ， 调 用 encrypt () 方 法 ， 传 入 口令 字符 串 @。PDF 可 
以 有 一 个 “用 户口 令 ”( 人 允许 查看 这 个 PDF) 和 一 个 “拥有 者 口令 ”( 人 允许 设置 打印 、 注 释 、 提 
取 文 本 和 其 他 功能 的 许可 )。 用 户口 令 和 拥有 者 口令 分 别 是 encrypt() 的 第 一 个 和 第 二 个 参数 。 
如 果 只 给 encrypt () 传 入 一 个 字符 串 ， 那 么 该 字符 串 将 同时 作为 两 个 口令 使 用 。 

在 这 个 例子 中 ， 我 们 将 meetingminutes.pdf 的 页 面 复制 到 PdfFileWriter 对 象 。 用 口令 
swordfish 加 密 了 PdfFileWriter， 打 开 了 一 个 名 为 encryptedminutes.pdf 的 新 PDF， 并 将 
PdfFileWriter 的 内 容 写 入 新 PDF。 任 何人 要 查看 encryptedminutes.pdf， 都 必须 输入 这 个 口 
令 。 在 确保 文件 的 副本 被 正确 加 密 后 ， 你 可 能 会 删除 原来 的 未 加 密 的 meetingminutes.pdf 文档 。 
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假定 你 有 一 个 很 无 聊 的 任务 ， 需 要 将 几 十 个 PDF 文档 合并 成 一 个 PDF 文档 。 每 一 个 文档 
都 有 一 个 封面 作为 第 一 页 ， 但 你 不 希望 合并 后 的 文档 中 重复 出 现 这 些 封 面 。 即 使 有 许多 免费 的 
程序 可 以 合并 PDF, 很 多 也 只 是 简单 地 将 文档 合并 在 一 起 。 让 我 们 来 写 一 个 Python 程序 ， 定 制 
需要 合并 到 PDF 中 的 页 面 。 
总 的 来 说 ， 程 序 需 要 完成 以 下 任务 。 
1. 找到 当前 工作 目录 中 的 所 有 PDF 文档 。 
2. 按 文档 名 排序 ， 这 样 就 能 有 序 地 添加 这 些 PDF。 
3. 除了 第 一 页 之 外 ， 将 每 个 PDF 的 所 有 页 面 写 入 输出 的 文档 。 
从 实现 的 角度 来 看 ， 代 码 需 要 执行 以 下 操作 。 
. 调用 os.1listdir()， 找 到 当前 工作 目录 中 的 所 有 文件 ， 并 去 除非 PDF 文档 。 
.调用 Python 的 sort () 列 表 方 法 ， 将 文档 名 按 字 母 排 序 。 
.为 输出 的 PDF 文档 创建 PdfFileWriter 对 象 。 
循环 遍历 每 个 PDF 文档 ， 为 它 创建 PdfFileReader 对 象 。 
.针对 每 个 PDF 文档 ， 循 环 遍 历 每 一 页 ， 第 一 页 除外 。 
.将 页 面 添加 到 输出 的 PDF。 
.将 输出 的 PDF 写 入 一 个 文档 ， 名 为 allminutes.pdf。 
针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保 存 为 combinePdfs.py。 


第 1 步 : 找到 所 有 PDF 文档 


首先 ， 程 序 需要 取得 当前 工作 目录 中 所 有 带 .pdf 扩展 名 的 文档 列表 ， 并 对 它们 排序 。 让 你 
的 代码 看 起 来 像 这 样 : 


OWD 一 - 


282 第 15 章 处 理 PDF 和 Word 文档 


#! python3 
# CcombinePdfs.py - Combines all the PDFs in the current working directory into 
# into a singls PDF. 


@ import PyPDF2, os 
# Get all the PDF filenames. 
pdfFiles = [{] 
for filename in os.listdir('.'): 
if filename.endswith(' .pdf'): 
© pdfFiles.append(filename) 
© pdfFiles.sort(key = str.1lower) 
@ pdfWriter = PyPDF2.PdfFileWriter() 
# TODO: Loop through all the PDF files. 
# TODO: Loop through all the pages (except the first) and add them. 


# TODO: Save the resulting PDF to a file. 


在 #! 行 和 介绍 程序 做 什么 的 描述 性 注释 之 后 ， 代 码 导 入 了 os 和 PyPDF2 模块 @。 
os.listdir('.') 调 用 将 返回 当前 工作 目录 中 所 有 文档 的 列表 。 代 码 循环 遍历 这 个 列表 ， 将 
带 有 .pdf 扩展 名 的 文档 添加 到 pdfFiles 中 @。 然 后 ， 列 表 按照 字典 顺序 排序 ， 调 用 sort () 
时 需要 带 有 key/str .1lower 关键 字 参 数 @。 

代码 创建 了 一 个 PdfFileWriter 对 象 ， 以 保存 合并 后 的 PDF 页 面 @。 最 后 ， 使 用 一 些 注 
释 语句 简要 描述 了 剩 下 的 程序 。 


第 2 步 : 打开 每 个 PDF 文档 
现在 ， 程 序 必须 读 取 pdfFiles 中 的 每 个 PDF 文档 。 在 程序 中 加 入 以 下 代码 : 


#! python3 
# combinePdfs.py - Combines all the PDFS in the current working directory into 
# a Single PDF . 
import PyPDF2, os 
# Get all the PDF filenames. 
pdfFiles = [] 
-~-SNip-- 
# Loop through all the PDF files. 
for filename in pdfFiles: 
pdfFile0bj = open(filename, 'rb ') 
pdfReader = PyPDF2.PdfFileReader(pdfFile0bj) 
# TODO: Loop through all the pages (except the first) and add them. 


# TODO: Save the resulting PDF to a file. 

针对 每 个 PDF 文档 ， 循 环 内 的 代码 调用 open()， 以 'wb ' 作为 第 二 个 参数 ， 用 读 二 进 制 的 
模式 打开 文档 。open( ) 调用 会 返回 一 个 File 对 象 , 它 被 传递 给 PyPDF2.PdfFileReader()， 
以 创建 针对 那个 PDF 文档 的 PdfFileReader 对 象 。 
第 3 步 : 添加 每 一 页 


针对 每 个 PDF 文档 ， 程 序 需 要 循环 远 历 每 一 页 ， 第 一 页 除外 。 在 程序 中 添加 以 下 代码 : 
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#! python3 
# combinePdfs.py - Combines all the PDFs in the current working directory into 
# a Single PDF. 


import PyPDF2， os 
--SNip-- 
# Loop through all the PDF files. 
for filename in pdfFiles: 
--SNip-- ' 
# Loop through all the pages (except the first) and add them. 
@ for pageNum in range(1, pdfReader .numPages) : 


page0bj = pdfReader .getPage(pageNum) 
pdfWriter .addPpage(page0bj ) 


# TODO: Save the resulting PDF to a file. 


for 循环 内 的 代码 将 每 个 Page 对 象 复 制 到 PdfFileWriter 对 象 。 要 记 住 ， 你 需要 跳 过 
第 一 页 。 因 为 PyPDF2 认为 0 是 第 一 页 ， 所 以 循环 应 该 从 1 开始 Q@， 然 后 向 上 增长 到 pdfReader . 
umPages 中 的 整数 ， 但 不 包括 它 。 


第 4 步 : 保存 结果 


在 这 些 嵌 套 的 for 循环 完成 后 ，pdfWriter 变量 将 包含 一 个 PdfFileWriter 对 象 ， 以 
合并 所 有 PDF 的 页 面 ,最 后 一 步 是 将 这 些 内 容 写 入 硬盘 上 的 一 个 文档 ,在 程序 中 添加 以 下 代码 : 


#! python3 
# combinePdfs.py - Combines all the PDFs in the current working directory into 
# a Single PDF. 


import PyPDF2, os 
--Snip-- 


# Loop through all the PDF files. 

for filename in pdfFiles: 

- -SNip-- 
# Loop through all the pages (except the first) and add them. 
for pageNum in range(1，pdfReader .numPages ) : 
--SNip-- 


# Save the resulting PDF to a file. 
pdfOutput = open('allminutes.pdf", 'wb’) 


pdfWriter .write(pdfOutput) 
pdfoutput .closel() 


门 open() 传 入 'wb'， 以 写 二 进 制 的 模式 打开 PDF 文档 allminutes.pdf。 然 后 ， 将 得 到 的 
File 对 象 传 给 write() 方 法 ， 以 创建 实际 的 PDF 文档。 调用 close( ) 方 法 ， 结 束 程序 。 
第 5 步 : 类 似 程序 的 想法 

利用 其 他 PDF 文档 的 页 面 创建 PDF 文档 能 让 你 的 程序 完成 以 下 任务 。 

口 从 PDF 文档 中 截取 特定 的 页 面 。 

口 重新 调整 PDF 文档 中 页 面 的 次 序 。 


284 第 15 章 处 理 PDF 和 Word 文档 
口 创建 一 个 PDF 文档 , 只 包含 那些 具有 特定 文本 的 页 面 .文本 由 extractText () 来 确定 。 


15.3 ”Word 文档 


利用 python-docx 模块 , Python 可 以 创建 和 修改 Word 文档 ，Word 文档 带 有 .docx 文件 扩 
展 名 。 运 行 pip install --user -U python-docx==0.8.10 可 以 安装 该 模块 《附录 A 介 
绍 了 安装 第 三 方 模块 的 细节 )。 
注意 :在 第 一 次 用 pip 安 装 python-docx 时 ， 注 意 要 安装 python-docx， 而 不 是 doCX。 人 安装 名 称 doCX 

是 指 另 一 个 模块 , 本 书 没有 介绍 。 但 是 , 在 导入 python-docx 模 块 时 , 需要 执行 Import docx， 
而 不 是 jmport python-docx。 


如 果 你 没有 Word 软件 , 那么 LibreOffice Writer 和 OpenOffice Writer 都 是 免费 的 替代 软件 ， 
它们 可 以 在 Windows 操作 系统 .macOS 和 Linux 操作 系统 上 打开 .docx 文档 ,尽管 有 针对 macOS 
的 Word 版 本 ， 但 本 章 将 使 用 Windows 操作 系统 的 Word 版 本 。 

和 纯 文 本 相 比 ，.docx 文档 有 很 多 结构 。 这 些 结构 在 python-docx 中 用 3 种 不 同 的 类 型 来 
表示 。 在 最 高 一 层 ，Document 对 象 表 示 整 个 文档 。Document 对 象 包含 一 个 Paragraph 对 有 象 
的 列表 表示 文档 中 的 段落 (用 户 在 Word 文档 中 输入 时 ， 如 果 按 回 车 键 ， 新 的 段落 就 开始 了 )。 
每 个 Paragraph 对 象 都 包含 一 个 Run 对 象 的 列表 。 图 15-4 所 示 的 单 句 段落 有 4 个 Run 对 象 。 

Word 文档 中 的 文本 不 仅仅 是 字符 串 , 它 还 包 
含 与 之 相关 的 字体 、 大 小 、 颜 色 和 其 他 样式 信息 。 
在 Word 文档 中 ， 样 式 是 这 些 属 性 的 集合 。 一 个 
Run 对 象 是 相同 样式 文本 的 延续 。 当 文本 样式 发 
生 改 变 时 ， 就 需要 一 个 新 的 Run 对 象 。 


15.3.1 读 取 Word 文档 


让 我 们 尝试 使 用 docx 模块 。 从 异步 社区 本 书 对 应 页 面 下 载 demo.docx, 并 将 它 保 存在 当前 
工作 目录 中 。 然 后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import docx 
© >>> doc = docx.Document('demo.docx') 
@ >>> len(doc.paragraphs) 
7 
© >>> doc.paragraphs[0] .text 
‘Document Title' 
© >>> doc.paragraphs[1] .text 
'A plain paragraph with some bold and some italic' 
© >>> len(doc.paragraphs[1] .runs ) 
4 
© >>> doc.paragraphs[1] .runs[0] .text 
'A plain paragraph with some ' 
@ >>> doc.paracraphs[1] .runs[1].text 
'bold' 
©@ >>> doc.paraoraphs[1] .runs[2].text 
”and some ' 


A plain paragraph with somebold and some italic 
ea 


Run Run Run Run 


图 15-4 一 个 Paragraph 对 象 中 识别 的 Run 对象 
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© >>> doc.paragraphs[1] .runs[3] .text 
'italic' 


在 @ 行 ， 我 们 在 Python 中 打开 了 一 个 .docx 文档 ， 通 过 调用 docx .Document ( ) 来 传 入 文 
档 名 demo.docx。 这 将 返回 一 个 Document 对 象 ， 它 有 paragraphs 属性 ， 是 Paragraph 对 
象 的 列表 。 如 果 我 们 对 doc.paragraphs 调用 len()， 将 返回 7。 这 告诉 我 们 ， 该 文档 有 7 个 
Paragraph 对 象 @。 每 个 Paragraph 对 象 都 有 一 个 text 属性 ， 该 属性 包含 该 段 中 文本 的 字 
符 串 (没有 样式 信息 )。 这 里 ,第 一 个 text 属性 包含 'DocumentTitle'@, 第 二 个 包含 'A plain 
paragraph with some bold and some italic'®. 

每 个 Paragraph 对 象 也 有 一 个 runs 属性 , 它 是 Run 对 象 的 列表 。Run 对 象 也 有 一 个 text 
属性 ， 包 含 特定 运行 中 的 文本 。 我 们 看 看 第 二 个 Paragraph 对 象 中 的 text 属性 : 'A plain 
paragraph with some bold and some italic'。 对 这 个 Paragraph 对 象 调用 len()， 
结果 告诉 我 们 有 4 个 Run 对 象 @。 第 一 个 对 象 包含 'A plain paragraph with some '@。 然 
后 ， 文 本 变 为 粗 体 样式 ， 因 此 'bold' 开 始 了 一 个 新 的 Run 对 象 @。 在 这 之 后 ， 文 本 又 回 到 了 非 
粗 体 的 样式 ， 这 导致 了 第 三 个 Run 对 象 :' and some '@。 最 后 ， 第 四 个 对 象 包含 'italic'， 
是 斜体 样式 。 

有 了 python-docx，Python 程序 就 能 从 .docx 文档 中 读 取 文本 ， 像 使 用 其 他 的 字符 串 值 一 
样 使 用 它 。 


15.3.2 ”从 .docx 文档 中 取得 完整 的 文本 


如 果 你 只 关心 Word 文档 中 的 文本 ， 不 关心 样式 信息 ， 那 么 可 以 利用 getText ( ) 函数 。 它 
接收 一 个 .docx 文档 名 ， 并 返回 其 中 文本 的 字符 串 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代 
码 ， 并 将 其 保存 为 readDocx.py: 


#! python3 
import docx 


def getText (filename): 
doc = docx.Document (filename) 
fullText = [{] 
for para in doc.paragraphs: 
fullText.append(para.text) 
return '\n'.join(fullText) 


getText() 消 数 打 开 了 Word 文档 ， 循 环 遍历 paragraphs 列表 中 的 所 有 Paragraph 对 
象 ， 然 后 将 它们 的 文本 添加 到 fullText 列表 中 。 循 环 结 束 后 ，ful1Text 中 的 字符 串 连接 在 
一 起 ， 中 间 以 换行 符 分隔 。 

readDocx.py 程序 可 以 像 其 他 模块 一 样 导 入 。 现 在 如 果 你 只 需要 Word 文档 中 的 文本 ， 就 可 
以 输入 以 下 代码 : 


>>> import readDocx 

>>> print(readDocx.getText( 'demo.docx ') ) 

Document Title 

A plain paragraph with Some bold and Some italic 
Heading， level 1 
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Intense quote 
first item in unordered list 
first item in ordered list 


也 可 以 调整 getText()， 在 返回 字符 串 之 前 进行 修改 。 例 如 ， 要 让 每 一 段 缩 进 ， 就 将 文件 
中 的 append() 调 用 替换 为 : 

fullText.append(' “+ para.text) 

要 在 段落 之 间 增 加 空 行 ， 就 将 join( ) 调 用 代码 改 成 : 

return '‘\n\n'.join(fullText) 


可 以 看 到 ， 只 需要 几 行 代码 就 可 以 写 出 函数 ， 读 取 .docx 文档 ， 并 根据 需要 返回 它 的 内 
容 字 符 串 。 


15.3.3 设置 Paragraph 和 Run 对象 的 样式 


在 Windows 操作 系统 的 Word 中 ， 你 可 以 按 Ctrl-Alt-Shift-S rnin lied 
式 , 如 图 15-5 所 示 。 在 macOS 上 , 可 以 选择 ViewhStyles pe” TS 
菜单 项 查看 样式 窗口 。 

Word 和 其 他 文字 处 理 软件 一 样 通 过 利用 样式 来 保 
持 类 似 类 型 的 文本 在 视觉 展现 上 一 致 ， 这 还 易于 修改 。 
例如 ， 也 许 你 希望 将 内 容 段 落 设置 为 11 点 、Times New 
Roman、 左 对 齐 、 右 边 不 对 齐 的 文本 。 可 以 用 这 些 设 置 
创建 一 种 样式 ， 将 它 赋 给 所 有 的 文本 段落 。 如 果 稍 后 想 
改变 文档 中 所 有 内 容 段 落 的 展现 形式 ， 只 要 改变 这 种 样 
式 ， 那 么 所 有 段落 都 会 自动 更 新 。 

对 于 Word 文档 ， 有 3 种 类 型 的 样式 :“ 段 落 样 式 ” 
可 以 应 用 于 Paragraph 对 象 ,“ 了 字符 样式 ”可 以 应 用 于 es 
Run 对 象 ,“ 链 接 的 样式 ”可 以 应 用 于 这 两 种 对 象 。 可 以 图 15-5 在 Windows 操作 系统 上 按 
将 Paragraph 和 Run 对 象 的 style 属性 设置 为 一 个 字 Ctl-Alt-Shift-S 快捷 键 ， 显 示 样式 窗口 
符 串 ， 从 而 设置 样式 。 这 个 字符 串 应 该 是 一 种 样式 的 名 称 。 如 果 style 被 设置 为 None， 就 没 
有 样式 与 Paragraph 或 Run 对 象 关联 。 

默认 Word 样式 的 字符 串 如 下 : 


'Normal ' ‘Heading 5 'List Bullet' 'List Paragraph， 
'Body Text' 'Heading 6 'List Bullet 2 'MacroText' 

'Body Text 2 ‘Heading 7' 上 DULLet 号 'No Spacing' 
‘Body Text 3' 'Heading 8' 'List Continue' ‘Quote' 

‘Caption' 'Heading 9' 'List Continue 2， 'Subtitle' 
'Heading 1' 'Intense Quote' 'List Continue 3' 'TOC Heading' 
'Heading 2" ot" 'List Number ' Titie” 

‘Heading 3' J 'List Number 2， 

"Heading 4 1St 入 'List Number 3' 


如 果 对 Run 对 象 应 用 链接 的 样式 ， 那 么 需要 在 样式 名 称 末尾 加 上 'Cchar' 。 例 如 ， 对 
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Paragraph 对 象 设 置 Quote 链接 的 样式 ， 应 该 使 用 paragraphobj .style = 'Quote'; 但 
对 于 Run 对 象 ， 应 该 使 用 run0bj .style = 'QuoteChar'。 

在 当前 版 本 的 python-docx (0.8.10) 中 , 只 能 使 用 默认 的 Word 样式 以 及 打开 的 文件 中 已 有 的 
样式 ， 不 能 创建 新 的 样式 ， 但 这 一 点 在 将 来 的 python-docx 版 本 中 可 能 会 改变 。 


15.3.4 创建 带 有 非 默认 样式 的 Word 文档 


如 果 想 要 创建 的 Word 文档 使 用 默认 样式 以 外 的 样式 ， 就 需要 打开 一 个 空白 Word 文档 ， 通 
过 单 击 样式 窗口 底部 的 New Style 按钮 来 自己 创建 样式 ,图 15-6 所 示 为 Windows 操作 系统 的 情形 。 


图 15-6 New Style 按钮 (左边 ) 和 “Create New Style from Formatting” 对 话 框 (右边 ) 
这 将 打开 “Create New Style from Formatting” 对 话 框 ， 在 这 里 可 以 输入 新 样式 。 然 后 回 到 


交互 式 环境 ,用 docx.Document ( ) 打 开 这 个 空白 Word 文档 ， 将 它 作 为 Word 文档 的 基础 。 这 
种 样式 的 名 称 现在 就 可 以 被 python-docx 使 用 了 。 


15.3.5 Run 属性 
通过 text 属性 ，Run 可 以 进一步 设置 样式 。 每 个 属性 都 可 以 被 设置 为 3 个 值 之 一 : True 
(该 属性 总 是 启用 ， 不 论 其 他 样式 是 否 应 用 于 该 Run)、False (该 属性 总 是 禁用 ) 或 None ( 默 
认 使 用 该 Run 被 设置 的 任何 属性 )。 
表 15-1 列 出 了 可 以 在 Run 对 象 上 设置 的 text 属性 。 
表 15-1 Run 对 象 的 text 属性 


属性 描述 
bold 文本 以 粗 体 出 现 
italic 文本 以 斜体 出 现 
underline 文本 带 下 划 线 


strike 文本 带 删除 线 
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续 表 
属性 描述 
double strike 文本 带 双 删 除 线 
all caps 文本 以 大 写字 母 出 现 
small_caps 文本 以 大 写字 母 出 现 ， 但 大 小 和 小 写字 母 一 样 
shadow 文本 带 阴影 
outline 文本 以 轮廓 线 出 现 ， 而 不 是 以 实心 出 现 
rtl 文本 从 右 至 左 书写 
imprint 文本 以 刻 入 页 面 的 方式 出 现 
emboss 文本 以 凸 出 页 面 的 方式 出 现 


例如 ， 为 了 改变 demo.docx 的 样式 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import docx 

>>> doc = docx.Document('demo.docx') 

>>> doc.paragraphs[0] .text 

Document Title' 

>>> doc.paragraphs[0].style # The exact id may be different: 
_ParagraphStyle('Title') id: 3095631007984 

>>> doc.paragraphs[0].style = ‘Normal' 

>>> doc.paragraphs[1] .text 

'A plain paragraph with some bold and some italic' 

>>> (doc.paragraphs[1] .runs[0].text, doc.paragraphs[1].runs[1].text, doc. 
paragraphs[1] .runs[2] .text, doc.paragraphs[1] .runs[3] .text) 

('A plain paragraph with some ', 'bold', ' and some ', 'italic') 
>>> doc.paragraphs[1].runs[0].style = 'QuoteChar' 

>>> doc.paragraphs[1] .runs[1] .underline = True 

>>> doc.paragraphs[1].runs[3] .underline = True 

>>> doc.save( restyled.docx') 


这 里 ， 我 们 使 用 了 text 和 style 属性 ， 以 便 容易 地 看 到 文档 的 段落 中 有 什么 。 我 们 可 以 看 
到 ， 很 容易 将 段落 划分 成 Run， 并 单独 访问 每 个 Run。 所 以 我 们 取得 了 第 二 段 中 的 第 一 、 第 二 和 第 
四 个 Run， 设 置 每 个 Run 的 样式 ， 并 将 结果 保存 到 一 个 新 文档 。 

文件 顶部 的 单词 Document Title 将 具有 Normal 样式 ， 而 不 是 Title 样式 。 针 对 文本 A _ plain 
paragraph 的 Run 对 象 将 具有 QuoteChar 样式 。 针 对 单词 bold 和 italic 的 两 个 Run 对 象 ， 它 们 的 
underline 属性 设置 为 True。 图 15-7 所 示 为 文件 中 段落 和 Run 的 样式 的 展现 形式 。 


Document Title 


jnmtense 一 
| Subte Reference 


ntense Reference 


A plain paragraph with some bold and some italic. 


图 15-7 restyled.docx 文档 


15.3.6” 写 入 Word 文档 
在 交互 式 环境 中 输入 以 下 代码 : 
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>>> import docx 

>>> doc = docx.Document() 

>>> doc.add paragraph('Hello, world!') 
<docx.text.Paragraph object at Ox0000000003B56F60> 
>>> doc.save('helloworld.docx') 


要 创建 目 己 的 .docx 文档 , 就 调用 docx.Document (), 返回 一 个 新 的 、 空 白 的 Word Document 
对 象 。Document 对 象 的 add_paragraph() 方 法 将 一 段 新 文 本 添加 到 文档 中 ， 并 返回 添加 的 
Paragraph 对 象 的 引用 。 在 添加 完 文本 之 后 ,向 Document 对 象 的 save( ) 方 法 传 入 一 个 文件 名 
字符 串 ， 将 Document 对 象 保存 到 文档 。 

这 将 在 当前 工作 目录 中 创建 一 个 文档 ， 其 名 为 helloworld.docx。 如 果 打 开 它 ， 就 像 图 15-8 
所 示 的 样子 。 


helloworid ,doc - Microsoft Word 


Home | net Page Layoutl Reerences Maiings Revew View 本 
‘Cambria (Body) "1 三 * 注 w“ 汪 * 这 
B 1 -xn : 志 : 国 至 汝 要 : 疆 


图 15-8 利用 add_paragraph('Hello world!' ) 创 建 的 Word 文档 
再 次 调用 add_paragraph() 方 法 和 新 的 段落 文本 来 添加 有 段落。 或 者 ， 要 在 已 有 段落 的 末 
尾 添加 文本 ， 可 以 调用 Paragraph 对 象 的 add_run() 方 法 ， 以 向 它 传 入 一 个 字符 串 。 在 交互 
式 环境 中 输入 以 下 代码 : 


>>> import docx 

>>> doc = docx.Document() 

>>> doc.add paragraph('Hello world!') 

<docx.text.Paragraph object at 0x000000000366AD30> 

>>> para0bj1 = doc.add paragraph('This is a second paragraph.') 

>>> para0bj2 = doc.add paragraph('This is a yet another paragraph.') 

>>> para0bj1.add_run(”′ This text is being added to the second paragraph.') 
<docx.text.Run object at 0x0000000003A2C860> 

>>> doc.Save(' multiplePparagraphs .docx ' ) 


得 到 的 文本 如 图 15-9 所 示 。 请 注意 ， 文 本 This text is being added to the second paragraph. 
被 添加 到 para0bj1 中 的 Paragraph 对 象 中 , 它 是 添加 到 doc 中 的 第 二 段 .add_paragraph() 
和 add_run() 分 别 返回 Paragraph 和 Run 对 象 ， 这 样 你 就 不 必 多 花 一 步 来 提取 它们 。 

要 记 住 ,对 于 python-docx 的 0.8.10 版 本 ,新 的 Paragraph 对 象 只 能 添加 在 文档 的 末尾 ， 
新 的 Run 对 象 只 能 添加 在 Paragraph 对 象 的 末尾 。 

可 以 再 次 调用 save ( ) 方法， 保存 所 做 的 变更 。 
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Hello, world! 


This isa second paragraph. This text is being added to the second paragraph. 


This is a yet another paragraph. 


图 15-9 添加 了 多 个 Paragraph 和 Run 对 象 的 文档 


add paragraph() 和 add_run( ) 都 接收 可 选 的 第 二 个 参数 , 它 是 表示 Paragraph 或 Run 
对 象 样式 的 字符 串 。 例 如 : 


>>> doc.add paragraph('Hello, world!', ‘Title') 


这 一 行 添加 了 一 段 ， 文 本 是 Hello, world!， 样 式 是 Title。 


15.3.7 ”添加 标题 


调用 add_heading() 将 添加 一 个 段落 ， 并 使 用 一 种 标题 样式 。 在 交互 式 环境 中 输入 以 下 
代码 : 
>>> doc = docx.Document() 
>>> doc.add heading('Header 0', 0) 
<docx.text.Paragraph object at 0x00000000036CB3C8> 
>>> doc.add heading('Header 1', 1) 
<docx.text.Paragraph object at 0x00000000036CB630> 
>>> doc.add heading('Header 2', 2) 
<docx.text.Paragraph object at 0x00000000036CB828> 
>>> doc.add heading('Header 3', 3) 
<docx.text.Paragraph object at 0x00000000036CB2E8> 
>>> doc.add heading('Header 4', 4) 
<docx.text.Paragraph object at 0x00000000036CB3C8> 
>>> doc.save('headings.docx') 


add heading() 的 参数 是 一 个 标题 文本 的 字符 串 ， 以 及 一 个 从 0 到 4 的 整数 。 整 数 0 
表示 标题 是 Title 样式 ， 这 用 于 文档 的 顶部 。 整 数 1 到 4 是 不 同 的 标题 层次 ，1 是 主要 的 标 


题 ，4 是 最 低层 的 子 标题 。add_heading() 返 回 六 eader0 
一 个 Paragraph 对 象 ， 让 你 不 必 多 花 一 步 从 | ya : 
Document 对 象 中 提取 它 。 i 

得 到 的 headings.docx 文档 如 图 15-10 所 示 。 te 二 
15.3.8 ”添加 换行 符 和 换 页 符 图 15-10 带 有 标题 0 到 4 的 headings.docx 文档 


要 添加 换行 符 《〈 而 不 是 开始 一 个 新 的 段落 )， 可 以 在 Run 对 象 上 调用 add_break ( ) 方 法 ， 


一 一 
rr 
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换行 符 将 出 现在 它 后 面 。 如 果 希 望 添加 换 页 符 ， 可 以 将 docx.text.WD_BREAK.PAGE 作为 唯 
一 的 参数 ， 传 递 给 add_break()， 就 像 下 面 代码 中 间 所 做 的 一 样 : 


>>> doc = docx.Document() 
>>> doc.add paragraph('This is on the first page!') 
<docx.text.Paragraph object at 0x0000000003785518> 

上 >>> doc,.paragraphs[0] .runs[0] .add break(docx.enum.text.WD BREAK.PAGE) 
>>> doc.add paragraph('This is on the second page!') 
<docx .text.Paragraph object at 0x00000000037855F8> 
>>> doc.save('twoPpage.docx') 


这 创建 了 一 个 两 页 的 Word 文档 , 第 一 页 上 是 This is on the first page!, 第 二 页 上 是 This is on 


the second page!。 虽 然 在 文本 This is on the first page! 之 后 ， 第 一 页 还 有 大 量 的 空间 ， 但 是 我 们 
在 第 一 段 的 第 一 个 Run 之 后 插入 了 分 页 符 ， 强 制 下 一 段落 出 现在 新 的 页 面 中 @。 


15.3.9 添加 图 像 


Document 对 象 有 一 个 add_picture() 方 法 ， 可 以 让 你 在 文档 末尾 添加 图 像 。 假 定 当前 
工作 目录 中 有 一 个 文件 zophie.png， 你 可 以 输入 以 下 代码 ， 在 文档 末尾 添加 zophie.png， 宽 度 为 
1 英寸 ， 高 度 为 4 厘米 (Word 可 以 同时 使 用 英制 和 公制 单位 ): 

>>> doc.add picture('zophie.png', width=docx.shared.Inches(1), 


height=docx.shared,.Cm(4)) 
<docx.shape.InlineShape object at Ox00000000036C7D30> 


第 一 个 参数 是 一 个 字符 串 ， 表 示 图 像 的 文件 名 。 可 选 的 width 和 height 关键 字 参 数 将 设 


置 该 图 像 在 文档 中 的 宽度 和 高 度 ; 如 果 省 略 ， 宽 度 和 高 度 将 采用 默认 值 ， 即 该 图 像 的 正常 尺寸 。 
你 可 能 愿意 用 熟悉 的 单位 来 指定 图 像 的 高 度 和 宽度 ， 如 英寸 或 厘米 。 所 以 在 指定 width 和 
height 关键 字 参 数 时 ， 可 以 使 用 docx.shared.Inches() 和 docx.shared.Ccm() 函 数 。 


15.4 从 Word 文档 中 创建 PDF 


PyPDF2 模块 不 允许 你 直接 创建 PDF 文档 ， 但 如 果 你 在 Windows 操作 系统 上 安装 了 
Microsoft Word， 那 么 有 一 种 方法 可 以 用 Python 生成 PDF 文档 。 你 需要 运行 pip install 
--User --U pywin32==224 来 安装 Pywin32 包 。 有 了 这 个 包 和 docx 模块 ， 你 可 以 创建 Word 
文档 ， 然 后 用 下 面 的 脚本 将 其 转换 为 PDF。 

打开 一 个 新 的 文件 编辑 器 窗口 ， 输入 下 面 的 代码 ， 然后 保存 为 convertWordToPDF.py: 


# This Script runs on Windows only，and you must have Word installed . 
import win32com.client # install with “pip install pywin32==224" 

import docx 

wordFilename = 'your word document .docx' 

pdfFilename = 'your pdf filename .pdf' 


doc = docx.Document() 
# Code to create Word document goes here. 
doc.save(wordFilename) 


wdFormatPDF = 17 # Word's numeric code for PDFs. 
wordobj = win32com.client.Dispatch('Word.Application') 
doc0b] = wordobj .Documents.0pen(wordFilename) 
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doc0bj .SaveAs (pdfFilename, FileFormat=wdFormatPDF) 
docobj .Close!() 
wordobj .Quit() 


要 编写 一 个 程序 来 用 自己 的 内 容 制作 PDF， 必 须 用 python-docx 模块 创建 一 个 Word 文 
档 , 然后 用 Pywin32 包 的 win32com.client 模块 将 其 转换 为 PDF。 将 # Code to create Word 
document goes here .注释 替换 为 docx 函数 调用 ， 来 为 Word 文档 中 的 内 容 创建 PDF 文档 。 

这 看 起 来 似乎 是 一 个 复杂 的 制作 PDF 的 方法 ， 但 事实 表明 ， 专 业 软 件 的 解决 方案 往往 同样 
复杂 。 


15.5 小结 


文本 信息 不 仅仅 是 纯 文 本 文件 ， 实 际 上 ， 很 有 可 能 更 经 常 遇 到 的 是 PDF 和 Word 文档 。 可 以 利 
用 PyPDF2 模块 来 读 写 PDF 文档 。 遗 憾 的 是 ， 从 PDF 文档 读 取 文本 并 非 总 是 能 得 到 完美 转换 的 字符 
串 ， 因 为 PDF 文档 的 格式 很 复杂 ， 某 些 PDF 可 能 根本 读 不 出 来 。 在 这 种 情况 下 ， 你 就 不 太 走 运 了 ， 
除非 将 来 PyPDF2 更 新 ， 支 持 更 多 的 PDF 功能 。 

Word 文档 更 可 靠 ， 可 以 用 python-docx 模块 来 读 取 。 可 以 通过 Paragraph 和 Run 对象 
来 操作 Word 文 丫 中 的 文本 。 可 以 设置 这 些 对 象 的 样式 ， 尽 管 必 须 使 用 默认 的 样式 或 文档 中 已 
有 的 样式 ， 可 以 添加 新 的 段落 、 标 题 、 换 行 换 页 符 和 图 像 ， 尽 管 只 能 在 文档 的 末尾 添加 。 

在 处 理 PDF 和 Word 文档 时 有 很 多 限制 ， 这 是 因为 这 些 格式 的 本 意 是 很 好 地 展示 给 人 看 ， 
而 不 是 让 软件 易于 解析 。 下 一 章 将 探讨 存储 信息 的 另外 两 种 常见 格式 : JSON 和 CSYV 文件 。 这 
些 格式 是 设计 给 计算 机 使 用 的 。 你 会 看 到 ，Python 处 理 这 些 格式 要 容易 得 多 。 


15.6 ”习题 


1. 不 能 将 PDF 文档 名 的 字符 串 传 递 给 PyPDF2.PdfFileReader() 函 数 。 应 该 向 该 函数 
传递 什么 ? 

2. PdfFileReader() 和 PdfFileWriter() 需 要 的 File 对 象 ， 应 该 以 何 种 模式 打开 ? 

3. 如 何 从 PdfFileReader 对 象 中 取得 第 5 页 的 Page 对 象 ? 

4. PdfFileReader 的 什么 属性 保存 了 PDF 文档 的 页 数 ? 

5. 如 果 PdfFileReader 对 象 表示 的 PDF 文档 是 用 口令 swordfish 加 密 的 , 应 该 先 做 什 
么 才能 从 中 取得 Page 对 象 ? 

6. 使 用 什么 方法 来 旋转 页 面 ? 

7. 什么 方法 返回 文档 demo.docx 的 Document 对 和 象 ? 

8. Paragraph 对 象 和 Run 对 象 之 间 的 区 别 是 什么 ? 

9. doc 变量 保存 了 一 个 Document 对 象 ， 如 何 从 中 得 到 Paragraph 对 象 的 列表 ? 

10. 哪 种 类 型 的 对 象 具有 bold、underline、italic、strike 和 outline 属性 ? 

11. bold 属性 值 设置 为 True、False 或 None， 有 什么 区 别 ? 

12. 如 何 为 一 个 新 Word 文档 创建 Document 对 象 ? 


15.7 实践 项 目 293 


13. doc 变量 保存 了 一 个 Document 对 象 , 如 何 添加 一 个 文本 是 'Hello there! ' 的 段落 ? 
14. 哪些 整数 表示 Word 文档 中 可 用 的 标题 级 别 ? 


15.7 ”实践 项 目 
作为 实践 ， 编 程 完成 下 列 任务 。 
15.7.1 PDF 偏执 狂 


利用 第 10 章 的 os.walk( ) 函数 编写 一 个 脚本 , 遍历 文件 夹 中 的 所 有 PDF( 包 含 子 文件 夹 )， 
用 命令 行 提 供 的 口令 对 这 些 PDF 加 密 。 用 原来 的 文件 名 加 上 _encrypted.pdf 后 级 ， 保 存 每 
个 加 密 的 PDF。 在 删除 原来 的 文件 之 前 ， 尝 试用 一 个 程序 读 取 并 解密 该 文件 ， 确 保 它 被 正确 地 
加 密 。 

然后 编写 一 个 程序 ， 找 到 文件 夹 中 所 有 加 密 的 PDF 文档 (包括 它 的 子 文件 夹 )， 然 后 利用 
提供 的 口令 来 创建 PDF 的 解密 副本 。 如 果 口 令 不 对 ， 程 序 应 该 输出 一 条 消息 ， 并 继续 处 理 下 一 
个 PDF 文档 。 


15.7.2 ”定制 邀请 函 ， 保 存 为 Word 文档 
假设 你 有 一 个 客人 名 单 的 文本 文件 。 这 个 guests.txt 文件 每 行 有 一 个 名 字 ， 像 下 面 这 样 : 


Prof. Plum 
Miss Scarlet 
Col. Mustard 
Al Sweigart 
RoboCop 


写 一 个 程序 ， 生 成 定制 邀请 函 的 Word 文档 ， 如 图 15-11 所 示 。 


Ww iDocument Moson Word La 
ee 了 C 3 2 Pp pw pe yp 


Ne wauld be a pleaaure to haue the compians of 
RoboCop 
at 11707170 Memary Lane am the Evening of 
Apri]l 1st 
dat 7 a clack 


图 15-11 定制 的 邀请 函 脚本 生成 的 Word 文档 
因为 python-docx 只 能 使 用 Word 文档 中 已 经 存在 的 样式 ， 所 以 你 必须 先 将 这 些 样式 添加 到 
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一 个 空白 Word 文档 中 ， 然 后 用 python-docx 打开 该 文档 。 在 生成 的 Word 文档 中 ， 每 份 邀请 函 
应 该 占据 一 页 ， 因 此 在 每 份 邀请 函 的 最 后 一 段 调用 add_break( ) 以 添加 分 页 符 。 这 样 ， 你 只 需要 
打开 一 份 Word 文档 ， 就 能 打印 所 有 的 邀请 函 。 

你 可 以 从 异步 社区 本 书 对 应 页 面 下 载 示例 guests.txt 文件 。 


15.7.3” 蛮 力 PDF 口令 破解 程序 


假定 有 一 个 加 密 的 PDF 文档 ， 你 忘记 了 口令 ， 但 记得 它 是 一 个 英语 单词 。 尝 试 猜测 遗 瑟 的 
口令 是 很 无 聊 的 任务 。 作 为 替代 ， 你 可 以 写 一 个 程序 ， 尝 试用 所 有 可 能 的 英语 单词 来 解密 这 个 
PDF 文档 ， 直 到 找到 有 效 的 口令 。 这 称 为 蛮 力 口令 攻击 。 从 异步 社区 本 书 对 应 页 面 下 载 文 本 文 
件 dictionary.txt。 这 个 字典 文件 包含 44 000 多 个 英语 单词 ， 每 个 单词 占 一行 。 

利用 第 9 章 学 过 的 文件 读 取 技巧 来 读 取 这 个 文件 ， 并 创建 一 个 单词 字符 串 的 列表 。 然 后 循 
环 遍历 这 个 列表 中 的 每 个 单词 ， 将 它 传 递 给 decrypt ( ) 函数， 如 果 这 个 函数 返回 整数 0， 口令 
就 是 错 的 , 程序 应 该 继续 尝试 下 一 个 口令 。 如果 decrypt () 函 数 返 回 1, 程序 就 应 该 终止 循环 ， 
并 输出 破解 的 口令 。 你 应 该 尝试 每 个 单词 的 大 小 写 形式 〈 在 我 的 笔记 本 电脑 上 ， 遍 历来 自 字 
典 文件 的 88 000 个 大 小 写 单词 只 要 几 分 钟 时 间 。 这 就 是 不 应 该 使 用 简单 英语 单词 作为 口令 的 


原因 )。 


处 理 CSV 文 件 和 
JSON 效 所 


在 第 15 章 中 ， 你 学 习 了 如 何人 从 PDF 和 Word 文档 中 提取 文本 。 这 些 文 
档 是 二 进 制 格式 ， 需 要 使 用 特殊 的 Python 模块 来 访问 它们 的 数据 。CSV 和 
JSON 文件 则 不 同 ,它们 是 纯 文 本 文件 。 可 以 用 文本 编辑 器 查看 它们 ,如 IDLE 
的 文件 编辑 器 。 但 Python 也 有 专门 的 CSV 模块 和 json 模块 ， 每 个 刑 块 都 
提供 了 一 些 函 数 ， 帮 助 你 处 理 这 些 文件 格式 。 

CSV 表示 “Comma-Separated Values”( 去 号 分 隔 的 值 )，CSV 文件 是 和 
化 的 电子 表格 ， 被 保存 为 纯 文 本 文件 。Python 的 Csv 模块 让 解析 CSV 文件 
变 得 容易 。 

JSON (发 音 为 “JAY-sawn” 或 “Jason” ， 但 如 何 发 音 并 不 重要 。 因 为 无 论 如 何 发 音 ， 都 会 有 人 
说 你 发 音 错 误 ) 是 一 种 格式 ， 它 以 JavaScript 源 代码 的 形式 将 信息 保存 在 纯 文 本 文件 中 。( JSON 是 
JavaScript Object Notation 的 缩写 。) 你 不 需要 知道 JavaScript 编程 语言 就 可 以 使 用 JSON 文件 ， 但 了 
解 JSON 格式 是 有 用 的 ， 因 为 它 用 于 许多 Web 应 用 程序 中 。 A 
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CSV 文件 中 的 每 行 代表 电 子 表格 中 的 一 行 , 逗号 分 隔 了 该 行 中 的 单元 格 。 : i ) 
例如 ， 电 子 表格 example.xlsx( 可 从 异步 社区 下 载 ) 在 一 个 CSYV 文件 中 看 起 | 
来 像 这 样 : 


4/5/2015 13:34,Apples,73 
4/5/2015 3:41,Cherries,85 
4/6/2015 12:46,Pears,14 
4/8/2015 8:59,0ranges ,52 
4/10/2015 2:07 ,Apples ,152 
4/10/2015 18:10,Bananas ,23 
4/10/2015 2:40,Strawberries,98 


我 将 使 用 这 个 文件 作为 本 章 的 交互 式 环 境 的 例子 。 可 以 从 异步 社区 本 书 对 应 页 面 下 载 
example.csv， 或 在 文本 编辑 器 中 输入 文本 并 保存 为 example.csv。 

CSYV 文件 是 人 简单 的 ， 它 相对 于 Excel 电子 表格 少 了 许多 功能 。 例 如 ， 在 CSV 文件 中 : 

D 值 没 有 类 型 ， 所 有 东西 都 是 字符 串 ; 

口 没有 字体 大 小 或 颜色 的 设置 ; 

口 没有 多 个 工作 表 ; 
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口 不 能 指定 单元 格 的 宽度 和 高 度 ; 

口 不 能 合并 单元 格 ; 

口 不 能 嵌入 图 像 或 图 表 。 

CSYV 文件 的 优势 是 简单 。CSYV 文件 被 许多 种 类 的 程序 广泛 地 支持 ,可 以 在 文本 编辑 器 中 得 
看 (包括 IDLE 的 文件 编辑 器 )， 它 是 表示 电子 表格 数据 的 直接 方式 。CSYV 格式 和 它 声称 的 完全 
一 致 : 它 就 是 一 个 文本 文件 ， 具 有 用 去 号 分 隅 的 值 。 

因为 CSV 文件 就 是 文本 文件 ， 所 以 你 可 能 会 尝试 将 它们 读 入 一 个 字符 串 ， 然 后 用 从 第 9 
章 学 到 的 技术 来 处 理 这 个 字符 串 。 例 如 ， 因 为 CSV 文件 中 的 每 个 单元 格 由 逗号 分 隅 ， 所 以 你 可 
以 只 是 对 每 行文 本 调用 split() 方 法 来 取得 这 些 值 。 但 并 非 CSV 文件 中 的 每 个 逗号 都 表示 两 
个 单元 格 之 间 的 分 界 。CSY 文件 也 有 自己 的 转 义 字符 ， 人 允许 逗号 和 其 他 字符 作为 值 的 一 部 分 。 
split() 方 法 不 能 处 理 这 些 转 义 字符 。 因 为 这 些 潜在 的 bug， 所 以 总 是 应 该 使 用 csv 模块 来 读 
写 CSV 文件 。 


16.1.1 reader 对 象 


要 用 csv 模块 从 CSYV 文件 中 读 取 数据 ， 需 要 创建 一 个 reader 对 象 。reader 对 象 让 你 进 
代 遍 历 CSV 文件 中 的 每 一 行 。 在 交互 式 环境 中 输入 以 下 代码 ， 同 时 将 example.csv 放 在 当前 工 
作 目 录 中 : 


© >>> import CSV 

@ >>> exampleFile = open('example.csv') 

© >>> exampleReader = csv.reader (exampleFile) 

© >>> exampleData = list(exampleReader) 

© >>> exampleData 
[{'4/5/2015 13:34', 'Apples', ‘73'], ['4/5/2015 3:41', 'Cherries', '85°'], 
['4/6/2015 12:46', ‘Pears', '14'], ['4/8/2015 8:59', ‘Oranges', '52'], 
['4/10/2015 2:07', 'Apples', '152'], ['4/10/2015 18:10', 'Bananas', '23'], 
['4/10/2015 2:40', 'Strawberries', '98']] 


csyv 模块 是 Python 自 带 的 ， 因 此 不 需要 安装 就 可 以 导入 它 9。 

要 用 csv 模块 读 取 CSV 文件 ， 首 先 用 open( ) 函数 打开 它 @@， 就 像 打开 任何 其 他 文本 文件 
一 样 。 但 是 ， 不 甲 在 open( ) 返 回 的 File 对 象 上 调用 read( ) 或 readlines() 方 法 ， 而 是 将 
它 传 递 给 csv .reader() 函 数 @。 这 将 返回 一 个 reader 对 象 供 你 使 用 。 请 注意 ， 不 能 直接 将 
文件 名 字符 串 传递 给 csv .reader() 函 数 。 

要 访问 reader 对 象 中 的 值 ， 最 直接 的 方法 就 是 将 它 转换 成 一 个 普通 Python 列表 ， 即 将 它 
传递 给 List()@。 在 这 个 reader 对 象 上 应 用 1ist() 函 数 ， 将 返回 一 个 列表 的 列表 。 可 以 将 
它 保存 在 变量 exampleData 中 。 在 交互 式 环境 中 输入 exampleData， 将 显示 列表 的 列表 @。 

既然 已 经 将 CSV 文件 表示 为 列表 的 列表 ， 就 可 以 用 表达 式 exampleData[row] [col] 
来 访问 特定 行 和 列 的 值 。 其 中 ，row 是 exampleData 中 一 个 列表 的 索引 ，col 是 该 列表 中 你 
想 访问 的 项 的 索引 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> exampleData[0][0] 
'4/5/2015 13:34， 
>>> exampleData[0][1] 
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'Apples' 

>>> exampleData[0] [2] 
二 

>>> exampleData[1][1] 
"Cherries' 

>>> exampleData[6][1] 
‘Strawberries' 


exampleData[0][0] 进 入 第 一 个 列表 , 并 给 出 第 一 个 字符 串 , exampleData[0][2] 进 入 
第 一 个 列表 ， 并 给 出 第 三 个 字符 串 ;， 以 此 类 推 。 


16.1.2 在 for 循环 中 ， 从 reader 对 象 读 取 数据 


对 于 大 型 的 CSV 文件 ， 你 需要 在 一 个 for 循环 中 使 用 reader 对 象 。 这 样 可 以 避免 将 整 
个 文件 一 次 性 装 入 内 存 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Import CSV 
>>> exampleFile = open('example.csv') 
>>> exampleReader = csv.reader (exampleFile) 
>>> for row in exampleReader: 
print('Row #' + str(exampleReader.line num) + ' ' + str(row)) 


Row #1 ['4/5/2015 13:34', 'Apples', '73'] 

Row #2 ['4/5/2015 3:41', 'Cherries', '85'] 

Row #3 ['4/6/2015 12:46', 'Pears', '14'] 

Row #4 ['4/8/2015 8:59', 'Oranges', '52'] 

Row #5 ['4/10/2015 2:07', 'Apples', '152'] 

Row #6 ['4/10/2015 18:10',，'Bananas', '23'] 

Row #7 ['4/10/2015 2:40', 'Strawberries', '98'] 


在 导入 csv 模块 , 并 从 CSYV 文件 得 到 reader 对 象 之 后 , 就 可 以 循环 遍历 reader 对 象 中 
的 行 了 。 每 一 行 是 一 个 值 的 列表 ， 每 个 值 表 示 一 个 单元 格 。 

print () 函数 将 输出 当前 行 的 编号 以 及 该 行 的 内 容 。 要 取得 行 号 ， 就 使 用 reader 对 象 的 
line_num 变量 ， 它 包含 了 当前 行 的 编号 。 

reader 对 象 只 能 循环 遍历 一 次 。 要 再 次 读 取 CSV 文件 ， 必 须 调用 csv.reader 来 创建 一 
个 对 象 。 


16.1.3 ”writer 对 象 


writer 对 象 让 你 将 数据 写 入 CSV 文件 。 要 创建 一 个 writer 对 象 ,就 使 用 csv.writer() 
图 数 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import csv 
@ >>> outputFile = open('output.csv', 'w', newline="'") 
© >>> outputWriter = csv.writer(outputFile) 
>>> outputWriter.writerow(['spam’, ‘eggs', ‘bacon’, 'ham']) 


21 


>>> outputWriter .writerow(['Hello, world!', 'eggs', ‘bacon', 'ham']) 
32 

>>> outputWriter.writerow([1, 2, 3.141592, 4]) 

16 


>>> outputFile.closel() 


首先 调用 open( ) 并 传 入 'w'， 以 写 模 式 打开 一 个 文件 @ 。 这 将 创建 对 象 。 然 后 将 它 传递 给 
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csv .writer()@ 来 创建 一 个 writer 对 象 。 

在 Windows 操作 系统 上 ， 需 要 为 open() 函数 的 1 newline 关键 字 参 数 传 入 一 个 空 字符 串 。 
这 样 做 的 技术 原理 超出 了 本 书 的 范围 ， 此 处 不 予 讨 论 。 如 果 忘 记 设置 newline 关键 字 参 数 ， 那 
么 output.csv 中 的 行距 将 有 两 倍 ， 如 图 16-1 所 示 。 


图 16-1 如 果 你 在 open( ) 中 忘记 设置 newLine= ' 关键 字 参数 ，CSYV 文件 将 有 两 倍 行距 


Writer 对 象 的 writerow() 方 法 接收 一 个 列表 参数 。 列 表 中 的 每 个 词 放 在 输出 的 CSV 文 
件 中 的 一 个 单元 格 中 。writerow( ) 函数 的 返回 值 是 写 入 文件 的 这 一 行 的 字符 数 ( 包 括 换行 符 )。 
这 段 代 码 生 成 的 文件 像 下 面 这 样 : 


spam,eggs ,bacon, ham 
"Hello, world!" ,eggs,bacon,ham 
1,2,3.141592,4# 


请 注意 ， 在 CSV 文件 中 ，writer 对 象 使 用 双 引 号 自动 转 义 了 'Hello，world!' 中 的 逗 
号 。csyv 模块 让 你 不 必 自 己 处 理 这 些 特殊 情况 。 


16.1.4 ”delimiter 和 lineterminator 关键 字 参 数 


假定 你 希望 用 制 表 符 代 替 喜 号 来 分 隔 单元 格 ， 并 希望 有 两 倍 行 中 ， 可 以 在 交互 式 环境 中 输 
入 下 面 这 样 的 代码 : 


>>> import csv 
>>> csvFile = open('example.tsv', 'w', newline='') 

@ >>> csvWriter = csv.writer(csvFile, delimiter='\t', lineterminator='\n\n') 
>>> csvWriter.writerow(['apples', 'oranges', 'grapes']) 


24 

>>> csvWriter.writerow(['eggs', 'bacon', "ham '] ) 

17 

>>> CSVWriter .Writerow(['spam'， 'spam’, ‘spam', "Spam'， 'spam', "Spam']) 
32 


>>> csvFile.closel() 

这 改变 了 文件 中 的 分 隔 符 和 行 终止 字符 。“ 分隔 符 ” 是 一 行 中 单元 格 之 间 出 现 的 字符 。 默 认 
情况 下 ，CSV 文件 的 分 隔 符 是 逗号 。“ 行 终止 字符 ”是 出 现在 行 末 的 字符 。 默 认 情 况 下 ， 行 终 
止 字 符 是 换行 符 。 你 可 以 利用 csv.writer() 的 delimiter 和 1ineterminator 关键 字 参 数 ， 
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将 这 些 字符 改 成 不 同 的 值 。 

传 入 delimiter='\t' 和 lineterminator='\n\n'@， 将 单元 格 之 间 的 字符 改 为 制 表 
将 行 之 间 的 字符 改 为 两 个 换行 符 。 然 后 我 们 调用 writerow()3 次 ， 得 到 3 行 。 

这 产生 了 文件 example.tsv， 它 包含 以 下 内 容 : 


apples oranges grapes 


符 


- 


eggs bacon ham 
spam spam spam spam spam spam 


既然 单元 格 是 由 制 表 符 分 隔 的 ， 我 们 就 使 用 文件 扩展 名 .tsv 来 表示 制 表 符 分 隔 的 值 。 


16.1.5 DictReader 和 DictWriter CSV 对 象 


对 于 包含 列 标题 行 的 CSV 文件 ， 通 常 使 用 DictReader 和 DictWriter 对 象 ， 而 不 是 使 
用 reader 和 writer 对象 ， 因 为 这 样 会 更 方便 。 

reader 和 writer 对 象 通过 使 用 列表 对 CSV 文件 的 行进 行 读 写 。DictReader 和 
DictWriter CSV 对 象 实现 相同 的 功能 ， 但 使 用 的 是 字典 ， 且 它们 使 用 CSV 文件 的 第 一 行 作 
为 这 些 字 典 的 键 。 

进入 异步 社区 本 书 对 应 页 面 ， 下 载 exampleWithHeader.csy 文件 。 这 个 文件 和 example.csv 
一 样 ， 只 是 第 一 行 是 列 标题 Timestamp、Fruit 和 Quantity。 

要 读 取 该 文件 ， 请 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import cSV 
>>> exampleFile = open('exampleWithHeader.csv') 
>>> exampleDictReader = csv.DictReader (exampleFile) 
>>> for row in exampleDictReader: 
print(row['Timestamp'], row['Fruit'], row['Quantity']) 


4/5/2015 13:34 Apples 73 
4/5/2015 3:41 Cherries 85 
4/6/2015 12:46 Pears 14 
4/8/2015 8:59 Oranges 52 
4/10/2015 2:07 Apples 152 
4/10/2015 18:10 Bananas 23 
4/10/2015 2:40 Strawberries 98 


在 这 个 循环 中 ，DictReader 对 象 将 row 设置 为 一 个 字典 对 象 ， 该 对 象 的 键 值 来 自 第 一 行 
中 的 列 标题 。( 从 技术 上 来 说 ,， 它 把 row 设置 为 一 个 OrderedDict 对 象 ， 你 可 以 用 和 字典 一 样 
的 方式 使 用 它 ， 它 们 之 间 的 区 别 不 在 本 书 的 范围 之 内 。) 使 用 DictReader 对 象 意味 着 你 不 需 
要 编写 额外 的 代码 来 跳 过 第 一 行 的 列 标题 信息 ， 因 为 DictReader 对 象 会 帮 你 做 这 件 事 。 

如 果 你 试图 对 example .csv 使 用 DictReader 对 象 ， 而 example .csyv 在 第 一 行 中 没有 
列 标题 信息 ， 那 么 DictReader 对 象 将 使 用 '4/5/2015 13:34'、'Apples' 和 '73' 作 为 字典 
键 。 为 了 避免 这 种 情况 ， 你 可 以 在 DictReader() 函数 中 加 入 第 二 个 参数 ， 其 中 包含 了 预 置 的 
列 标题 名 : 


>>> import csv 


16 
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>>> exampleFile = opent(' i 
>>> exampleDictReader = CSV dann ['time', 'name', 'amount']) 


>>> for row in exampleDictReader: 
print(row['time'], row['name'], row['amount']) 
4/5/2015 13:34 Apples 73 
4/5/2015 3:41 Cherries 85 
4/6/2015 12:46 Pears 14 
4/8/2015 8:59 OQranges 52 
4/10/2015 2:07 Apples 152 
4/10/2015 18:10 Bananas 23 
4/10/2015 2:40 Strawberries 98 


因为 example.csyv 的 第 一 行 中 每 一 列 的 标题 都 没有 任何 文字 ， 所 以 我 们 创建 了 目 己 的 列 
标题 : 'time'、'name' 和 'amount'。 
DictWriter 对 象 使 用 字典 来 创建 CSV 文件 。 


>>> import cSV 

>>> outputFile = open('output.csv', 'w', newline="') 

>>> outputDictwriter = csv.DictWriter(outputFile, ['Name', "Pet'， ‘Phone']) 

>>> outputDictWriter .writeheader() 

>>> outputDictWriter.writerow({'Name': 'Alice', 'Pet': 'cat', 'Phone': “555- 1234'}) 
20 

>>> outputDictWriter.writerow({'Name': 'Bob', 'Phone': '555-9999'}) 

15 

>>> outputDictWriter.writerow({'Phone': '555-5555', 'Name': ‘Carol', "Pet': 'dog'}) 
20 


>>> OutputFile.closel() 


如 果 你 想 让 文件 包含 一 个 标题 行 ， 那 就 调用 writeheader() 来 写 入 这 一 行 ， 否则 ， 跳 过 
调用 writeheader() 来 省 略 文件 中 的 标题 行 。 然 后 ， 调 用 writerow() 方 法 来 写 入 CSV 文件 
的 每 一 行 ， 并 传 入 一 个 字典 ， 该 字典 使 用 标题 作为 键 ， 并 包含 要 写 入 文件 的 数据 。 

这 段 代码 创建 的 output.csv 文件 看 起 来 是 这 样 的 : 


Name ,Pet,Phone 
Alice,cat ,555-1234 
Bob, ,555-9999 
Carol ,dog,555-5555 


注意 , 传 入 writerow( ) 的 字典 中 的 键 - 值 对 的 顺序 并 不 重要 : 它们 是 按照 给 DictWriter() 
的 键 的 顺序 写 的 。 例如 , 在 第 4 行 , 即使 你 把 Phone 的 键 和 值 放 在 Name 和 Pet 的 键 和 值 之 前 ， 
在 输出 结果 中 ， 电 话 号 码 仍 然 最 后 出 现 。 

另外 , 请 注意 , 任何 缺失 的 键 在 CSV 文件 中 都 会 是 空 的 , 例如 , {'Name': 'Bob' ，'Phone ' : 
'555-999999 '} 中 没有 'Pet'。 


16.2 ”项目 : 从 CSV 文件 中 删除 标题 行 


假设 你 有 一 个 繁琐 的 任务 ， 要 删除 几 百 个 CSV 文件 的 第 一 行 。 也 许 你 会 将 它们 送 入 一 个 自 
动 化 的 过 程 ， 该 过 程 只 需要 数据 ， 不 需要 每 列 项 部 的 标题 行 。 可 以 在 Excel 中 打开 每 个 文件 ， 
删除 第 一 行 ， 并 重新 保存 该 文件 ， 但 这 需要 几 小 时 。 让 我 们 写 一 个 程序 来 做 这 件 事 。 

该 程序 需要 打开 当前 工作 目录 中 所 有 扩展 名 为 .csv 的 文件 ， 读 取 CSYV 文件 的 内 容 ， 并 除 抒 
第 一 行 的 内 容 以 重新 写 入 同名 的 文件 。 这 将 用 新 的 、 无 标题 行 的 内 容 蔡 换 CSV 文件 的 旧 内 容 。 
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警告 : 与 往常 一 样 ， 当 你 写 程序 修改 文件 时 ， 一 定 要 先 备份 这 些 文件 ， 以 防 你 的 程序 没有 按期 望 的 方式 
工作 。 你 不 希望 意外 删除 原始 文件 。 


总 的 来 说 ， 该 程序 需要 完成 以 下 任务 。 

1. 找 出 当前 工作 目录 中 的 所 有 CSV 文件 。 

2. 读 取 每 个 文件 的 全 部 内 容 。 

3. 跳 过 第 一 行 ， 将 内 容 写 入 一 个 新 的 CSV 文件 。 

在 代码 层面 上 ， 这 意味 着 需要 执行 以 下 操作 。 

1. 衢 环 遇 历 从 os.1Listdir() 得 到 的 文件 列表 ， 跳 过 非 CSV 文件 。 

2. 创建 一 个 CSV reader 对 象 来 读 取 该 文件 的 内 容 ， 并 利用 line_num 属性 确定 要 跳 过 
哪 一 行 。 

3. 创建 一 个 CSV writer 对 象 ， 将 读 入 的 数据 写 入 新 文件 。 

针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 并 将 其 保存 为 removeCsvHeader.py。 
第 1 步 : 循环 遍历 每 个 CSV 文件 

程序 需要 做 的 第 一 件 事 情 ， 就 是 循环 遍历 当前 工作 目录 中 所 有 CSV 文件 名 的 列表 。 让 
removeCsvHeader.py 看 起 来 像 这 样 : 

#! python3 

# removeCsvHeader.py - Removes the header from all CSV files in the current 

# working directory. 

import csv, Os 

os.makedirs('headerRemoved', exist ok=True) 

# Loop through every file in the current working directory. 

for csvFilename in os.1listdir('.'): 

if not csvFilename.endswith('.csv’'): 
@ continue # Skip non-csv files 
print('Removing header from ' + csvFilename + '...') 


# TODO: Read the CSV file in (skipping first row). 


# TODO: Write out the CSV file. 


os .makedirs() 调 用 将 创建 headerRemoved 文件 夹 ， 所 有 的 无 标题 行 的 CSV 文件 将 写 


入 该 文件 夹 。 针 对 0s .1istdir('.') 进 行 for 循环 究 成 了 一 部 分 任务 ， 但 这 会 遍历 工作 目录 
中 的 所 有 文件 ， 因 此 需要 在 循环 开始 处 添加 一 些 代 码 ， 跳 过 扩展 名 不 是 .csv 的 文件 。 如 果 遇 到 
非 CSV 文件 ，continue 语句 O@ 让 循环 转 问 下 一 个 文件 名 。 

为 了 让 程序 运行 时 有 一 些 输出 ， 可 以 输出 一 条 消息 说 明 程 序 在 处 理 哪 个 CSV 文件 。 然 后 ， 
添加 一 些 TODO 注释 ， 说 明 程 序 的 其 余部 分 应 该 做 什么 。 


第 2 步 : 读 入 CSV 文件 
该 程序 不 会 从 原来 的 CSV 文件 删除 第 一 行 。 但 是 ， 它 会 创建 新 的 CSV 文件 副本 ， 不 包含 
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第 一 行 。 因 为 副本 的 文件 名 与 原来 的 文件 名 一 样 ， 所 以 副本 会 覆盖 原来 的 文件 。 
该 程序 需要 有 一 种 方法 , 用 于 了 解 它 的 循环 当前 是 否 在 处 理 第 一 行 。 为 removeCsvHeader.py 
添加 以 下 代码 : 


#! python3 
# removeCsvHeader.py - Removes the header from all CSV files in the current 
# working directory. 


-~-SNip-- 


# Read the CSV file in (skipping first row). 
csvRows = [] 
csvFile0bj = open(csvFilename) 
reader0bj = csv.reader(csvFile0bj) 
for row in reader0bj : 

if reader0bj .line_num == 1: 

continue # Skip first row 

csvRows .append (row) 

csvFile0bj.close() 


# TODO: Write out the CSV file. 


reader 对 象 的 line_num 属 性 可 以 用 来 确定 当前 读 入 的 是 CSV 文件 的 哪 一 行 .为 一 个 for 
循环 会 遍历 CSV reader 对 象 并 返回 所 有 行 。 除 了 第 一 行 ， 所 有 行 都 被 添加 到 csvRows 中 。 

在 for 循环 遍历 每 一 行 时 ， 代 码 检查 reader0bj .1ine_num 是 否 设 为 1。 如果 是 这 样 ， 
它 执行 continue 转向 下 一 行 ， 且 不 将 它 添加 到 csvRows 中 。 对 于 之 后 的 每 一 行 ， 条 件 永远 
是 False， 这 些 行将 添加 到 csvRows 中 。 


第 3 步 : 写 入 CSV 文件 ， 且 没有 第 一 行 


现在 csvRows 包含 了 除 第 一 行 的 所 有 行 , 该 列表 需要 被 写 入 headerRemoved 文件 夹 中 的 
一 个 CSV 文件 。 将 以 下 代码 添加 到 removeCsvHeader.py: 


#! python3 

# removeCsvHeader.py - Removes the header from all CSV files in the current 
# working directory. 

--SNip-- 


# Loop through every file in the current working directory. 
@ for csvFilename in os.listdir('.'): 
if not csvFilename.endswith('.csyv'): 
continue # Skip non-CSV files 


- -SNip-- 


# Write out the CSV file. 
csvFile0bj = open(os.path.join('headerRemoved ' csvFilename), 'w', 
newline=""') 
csvWriter = csv.writer(csvFile0bj) 
for row in csvRows: 
csvWriter .writerow(row) 
csvFile0bi.closel() 


CSV writer 对 象 利 用 csvFilename (这 也 是 我 们 在 CSV reader 中 使 用 的 文件 名 )， 将 
列表 写 入 headerRemoved 中 的 一 个 CSV 文件 。 这 将 履 盖 原来 的 文件 。 
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创建 writer 对 象 后 ， 我 们 循环 遍历 存储 在 csvRows 中 的 子 列表 ， 并 将 每 个 子 列表 写 入 
CSV 文件 。 

这 段 代 码 执 行 后 ， 外 层 for 循环 @ 将 循环 到 os .1istdir('.') 中 的 下 一 个 文件 名 。 循 环 
结束 时 ， 程 序 就 结束 了 。 

为 了 测试 你 的 程序 ， 从 异步 社区 对 应 页 面 下 载 removeCsvHeader.zip， 并 将 它 解 压缩 到 一 个 
文件 夹 。 在 该 文件 夹 中 运行 removeCsvHeader.py 程序 。 输 出 将 是 这 样 的 : 


Removing header from NAICS data 1048.csVv... 
Removing header from NAICS data 1218.CSV... 
- -SNip-- 

Removing header from NAICS data 9834.csVv... 
Removing header from NAICS data 9986.csv... 


这 个 程序 应 该 在 每 次 从 CSV 文件 中 删除 第 一 行 时 ， 输 出 一 个 文件 名 。 
第 4 步 : 类 似 程序 的 想法 


针对 CSV 文件 写 的 程序 类 似 于 针对 Excel 文件 写 的 程序 ， 因 为 它们 都 是 电子 表格 文件 。 你 
可 以 编程 完成 以 下 任务 。 

口 在 一 个 CSV 文件 的 不 同行 或 多 个 CSV 文件 之 间 比 较 数据 。 

口 从 CSV 文件 复制 特定 的 数据 到 Excel 文件 ， 或 反 过 来 。 

口 检查 CSV 文件 中 无 效 的 数据 或 格式 错误 ， 并 向 用 户 提示 这 些 错 误 。 

口 从 CSV 文件 读 取 数据 ， 将 其 作为 Python 程序 的 输入 。 


16.3 JSON 和 API 


JavaScript 对 象 表示 法 是 一 种 流行 的 方式 ， 可 将 数据 格式 化 为 人 可 读 的 字符 串 。JSON 是 
JavaScript 程序 编写 数据 结构 的 原生 方式 ， 类 似 于 Python 的 pprint() 函 数 产 生 的 结果 。 不 需 
要 了 解 JavaScript， 你 也 能 处 理 JSON 格式 的 数据 。 

下 面 是 JSON 格式 数据 的 一 个 例子 : 


{"name": "Zophie", "isCat": true, 
"miceCaught": 0, "napsTaken": 37.5, 
"felineIQ": null} 


了 解 JSON 是 很 有 用 的 ， 因 为 很 多 网 站 都 提供 JSON 格式 的 内 容 作为 程序 与 网 站 交互 的 方 
式 。 这 就 是 所 谓 的 提供 “应 用 程序 编程 接口 ”(Application Programming Interface，API)。 访 问 
API 和 通过 URL 访问 任何 其 他 网 页 是 一 样 的 。 不 同 的 是 ，API 返回 的 数据 是 针对 机 器 格式 化 的 
(例如 用 JSON)，API 不 是 人 容易 阅读 的 。 

许多 网 站 用 JSON 格式 提供 数据 。Facebook、Twitter、Yahoo、Google、Tumblr、Wikipedia、 
Flickr、Data.gov、Reddit、IMDb、Rotten Tomatoes、LinkedIn 和 许多 其 他 流行 的 网 站 ， 都 提供 
API 让 程序 使 用 。 有 些 网 站 需要 注册 ， 这 几乎 是 免费 的 。 你 必须 找到 文档 ， 了 解 程序 需要 请 求 
什么 URL 才能 获得 想 要 的 数据 ， 以 及 返回 的 JSON 数据 结构 的 一 般 格式 。 这 些 文档 应 在 提供 
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API 的 网 站 上 获取 ， 如 果 它 们 有 “Developers” 页 面 ， 就 去 那里 找 找 。 

利用 API， 可 以 编程 完成 下 列 任务 。 

口 从 网 站 抓 取 原始 数据 (访问 API 通 常 比 下 载 网 页 并 用 Beautiful Soup 解析 HIML 更 方便 )。 

口 自动 从 一 个 社交 网 络 账户 下 载 新 的 帖子 ， 并 发 布 到 另 一 个 账户 。 例 如 ， 可 以 把 Tumblr 

的 帖子 上 和 传 到 Facebook。 
口 从 IMDb、Rotten Tomatoes 和 维基 百科 提取 数据 ， 将 其 放 到 计算 机 的 一 个 文本 文件 中 ， 
以 为 你 个 人 的 电影 收藏 创建 一 个 “电影 百科 全 书 ”。 

JSON 并 不 是 将 数据 格式 化 为 人 类 可 读 字 符 串 的 唯一 方式 。 还 有 许多 其 他 的 格式 , 包括 XML 
(eXtensible Markup Language)、 TOML(Tom's Obvious, Minimal Language )、 YML( Yet another Markup 
Language)、INI (Initialization)， 甚 至 是 过 时 的 ASN.1 (Abstract Syntax Notation One) 格式 ， 
这 些 格式 都 提供 了 一 种 结构 ， 可 将 数据 重新 表示 为 人 可 读 的 文本 。 本 书 不 会 涉及 这 些 格式 ， 
因为 JSON 已 经 迅速 成 为 广泛 使 用 的 替代 格式 ， 但 有 一 些 第 三 方 的 Python 模块 可 以 轻松 处 理 
这 些 格式 。 


16.4 json 模块 


Python 的 json 模块 处 理 了 JSON 数据 字符 串 和 Python 值 之 间 转 换 的 所 有 细节 ， 并 得 到 了 
json.loads() 和 json.dumps() 函 数 。JSON 不 能 存储 每 一 种 Python 值 ， 它 只 能 包含 以 下 数 
据 类 型 的 值 : 字符 串 、 整 型 、 浮 点 型 、 布 尔 型 、 列 表 、 字 典 和 NoneType。 JSON 不 能 表示 Python 
特有 的 对 象 ， 如 File 对 象 、CSV reader 或 writer 对 象 、Regex 对 象 或 selenium 
WebElement 对 象 。 


16.4.1 用 loads() 函 数 读 取 JSON 


要 将 包含 JSON 数据 的 字符 串 转换 为 Python 的 值 ， 就 要 将 它 传递 给 json .loads () 函数 〈 这 
个 名 字 的 意思 是 “1load string”， 而 不 是 “loads”)。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> StringofJsonData = '{"name": "Zophie", "isCat": true, "miceCaught": 0， 
"felineIQ": null}' 

>>> import json 

>>> jsonDataAsPythonVvalue = json.loads(SstringofJsonData) 

>>> jsonDataAsPythonValue 

{'isCat': True, 'miceCaught': 0, 'name': 'Zophie', 'felineIQ': None} 


导入 json 模块 后 ， 就 可 以 调用 loads () ， 并 向 它 传 入 一 个 JSON 数据 字符 串 。 请 注意 ， 
JSON 字符 串 总 是 用 双 引 号 。 它 将 该 数据 返回 为 一 个 Python 字典 。Python 字典 是 没有 顺序 的 ， 
因此 如 果 输 出 jsonDataAsPythonValue， 那 么 键 - 值 对 可 能 以 不 同 的 顺序 出 现 。 


16.4.2 用 dumps 函数 瑟 出 JSON 


json.dumps() 国 数 〈 它 表示 “dump string”， 而 不 是 “dumps”) 将 一 个 Python 值 转换 成 
JSON 格式 的 数据 字符 串 。 在 交互 式 环境 中 输入 以 下 代码 : 
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>>> pythonValue = {'isCat': True, ‘miceCaught': 0, 'name': 'Zophie'， 
'felineIQ': None} 

>>> import json 

>>> stringOfJsonData = json.dumps (pythonValue) 

>>> String0fJsonData 

'{"isCat": true, "felineIQ": null, "miceCaught*: 0, "name": "Zophie" }' 


该 值 只 能 是 以 下 基本 Python 数据 类 型 之 一 : 字典 、 列 表 、 整 型 、 浮 点 型 、 字 符 串 、 布 尔 型 
或 None。 


16.5 项 目 : 取得 当前 的 天 气 数 据 


检查 天 气 似乎 相当 简单 : 打开 Web 浏览 器 ， 在 地 址 栏 输入 天 气 网 站 的 URL (或 搜索 天 气 ， 
然后 单 击 链 接 )， 等 待 页 面 加 载 ， 跳 过 所 有 的 广告 ， 等 等 。 

其 实 ， 如 果 有 一 个 程序 能 够 下 载 今后 几 天 的 天 气 预报 ， 并 以 纯 文本 方式 输出 ， 那 么 就 可 以 
跳 过 很 多 无 聊 的 步骤 。 该 程序 利用 第 12 章 介 绍 的 requests 模块 来 从 网 站 下 载 数据 。 

总 的 来 说 ， 该 程序 需要 完成 以 下 任务 。 

1. 从 命令 行 读 取 请 求 的 位 置 。 

2. 从 OpenWeather 官网 下 载 JSON 天 气 数 据 。 

3. 将 JSON 数据 字符 串 转 换 成 Python 的 数据 结构 。 

4. 输出 今天 和 未 来 两 天 的 天 气 。 

因此 ， 代 码 将 执行 以 下 操作 。 

1. 连接 sys .argv 中 的 字符 串 以 得 到 位 置 。 

2. 调用 requests.get() 以 下 载 天 气 数据 。 

3. 调用 json.1loads() 以 将 JSON 数据 转换 为 Python 数据 结构 。 

4. 输出 天 气 预 报 。 

针对 这 个 项 目 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 getOpenWeatherpy。 然 后 在 浏览 器 
中 访问 OpenWeather 官网 , 注册 一 个 免费 账户 , 并 获得 一 个 API 密 钥 (也 叫 应 用 程序 ID ) 对 于 Open- 
Weather-Map 服务 来 说 ， 它 是 一 个 字符 串 代码 ， 形 式 如 ' 30144aba38018987d84710d0e319281e'。 
你 不 需要 为 这 项 服务 付费 ， 除 非 你 打算 每 分 钟 调用 60 次 以 上 的 API。 保管 好 你 的 API 密 钥 : 任 
何 知道 它 的 人 都 可 以 写 出 脚本 ， 并 使 用 你 的 账户 使 用 配额 。 6 


第 1 步 : 从 命令 行 参数 获取 位 置 
该 程序 的 输入 来 自命 令 行 。 让 getOpenWeather.py 看 起 来 像 这 样 : 


#! python3 
# getOpenWeather.py - Prints the weather for a location from the command line. 


APPID = ‘YOUR APPID HERE' 
import json, requests, sys 


# Compute location from command line arguments. 
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if len(sys.argv) < 2: 
print('Usace: getOpenWeather.py city_name, 2-letter country_code') 


SYS .exit() 
location = ' '.join(sys.argv[1:]) 


# TODO: Download the JSON data from OpenWeatherMap.org's API. 


# TODO: Load JSON data into a Python variable. 

在 Python 中 ， 命 令 行 参数 存储 在 sys .argv 列表 里 。 在 检 行 和 import 语句 之 后 ， 程 序 会 
检查 是 否 有 多 个 命令 行 参数 (回想 一 下 ，sys .argv 中 至 少 有 一 个 元 素 sys .argv[0]， 它 包含 
了 Python 脚本 的 文件 名 )。 如 果 该 列表 中 只 有 一 个 元 素 ， 那 么 用 户 没 有 在 命令 行 中 提供 位 置 ， 且 
程序 向 用 户 提供 “Usage”( 用 法 ) 信息 ， 然 后 结束 。 

OpenWeatherMap 服务 要 求 查 询 的 格式 为 城市 名 称 、 逗 号 和 两 个 字母 的 国家 代码 (如 美国 
的 "US" )。 你 可 以 在 维基 百科 上 找到 这 些 代 码 的 列表 。 我 们 的 脚本 会 显示 检索 到 的 JSON 文本 
中 的 第 一 个 城市 的 天 气 。 遗 憾 的 是 ， 名 字 相 同 的 城市 ， 例 如 俄 勒 罗 州 的 波 特 兰 和 缅 因 州 的 波 特 
兰 ， 都 会 被 包含 在 内 ， 不 过 JSON 文本 中 会 包含 经 纬度 信息 以 区 分 不 同城 市 。 

命令 行 参 数 以 空格 分 隔 。 命 令 行 参 数 San Francisco，CA 将 使 sys.argv 保存 
['getOpenWeather .py'，'San'，'Francisco,'，'CA']。 因 此 ,调用 join() 方 法 将 sys. 
argyv 中 除 第 一 个 字符 串 以 外 的 字符 串 连接 起 来 。 将 连接 的 字符 串 存 储 在 变量 location 中 。 
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OpenWeather 官网 提供 了 JSON 格式 的 实时 天 气 信息 。 首 先 ， 你 必须 在 网 站 上 注册 一 个 免 
费 的 API 密 钥 。( 这 个 密 钥 是 用 来 限制 你 在 他 们 的 服务 器 上 提出 请 求 的 频率 ， 以 降低 他 们 的 市 
宽 费 用 。) 你 的 程序 只 需要 下 载 页 面 http://api o**** data/2.5/forecast/daily?q=<Location>&cnt= 
3&APPID=<API key>， 其 中 <Location> 是 想 知道 天 气 的 城市 ，<API key> 是 你 的 个 人 API 密 钥 。 
将 以 下 代码 添加 到 getOpenWeather.py 中 : 


#! python3 
# getOpenWeather.py - Prints the weather for a location from the command line. 


--SNip-- 


# Download the JSON data from OpenWeatherMap.org's API. 

Url ="'https://api.op **** data/2.5/forecast/daily?q=%s&cnt=3&APPID=%s ' % (location, 
APPID) 

response = requests.get(url) 

response.raise for status() 


# Uncomment to see the raw JSON text: 
#print(response.text) 


# TODO: Load JSON data into a Python variable. 

我 们 从 命令 行 参数 中 得 到 了 location。 为 了 生成 要 访问 的 网 址 ， 我 们 利用 %s 占 位 稚 ， 
将 1ocation 保存 的 字符 串 插 入 URL 字符 串 的 那个 位 置 。 结 果 保 存在 url 中 ， 然 后 将 url 
传 入 requests.get()。requests.get() 调 用 返回 一 个 Response 对 象 ， 它 可 以 通过 调用 
raise for_status() 来 检查 错误 。 如 打 不 发 生 异 常 ， 下 载 的 文本 将 保存 在 response .text 中 。 
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第 3 步 : 加 载 JSON 数据 并 输出 天 气 


response.text 成 员 变 量 保存 了 一 个 JSON 格式 数据 的 大 字符 串 。 要 将 它 转换 为 Python 
值 ， 吏 调用 json .1oads ( ) 函 数 。JSON 数据 会 像 这 样 : 


OP 
‘Country': “United States of America ' ， 
“120°: "5391959", 
'name': 'San Francisco ' ， 
population': 0}, 
ht $ 3 
"00 t “200°. 
机 
'deg' : 233， 
‘dt': 1402344000 ， 
'humidity': 58, 
‘pressure': 1012 .23， 
“Speed ' : 1.96， 
‘temp': {'day': 302.29， 
‘eve': 296.46, 
'maxX' : 302.29, 
‘min': 289.77， 
‘morn': 294.59, 
'night': 289.77}, 
'weather': [{'description': 'sky is clear', 
"ic0on": ‘0fd', 
--SNip-- 


可 以 将 weatherData 传 入 pprint.pprint() 以 查看 这 个 数据 。 你 可 能 要 进入 
OpenWeather 官网 ， 找 到 关于 这 些 字段 含义 的 文档 。 例 如 ， 在 线 文档 会 告诉 你 ，'day ' 后 面 的 
302.29 是 日 天 的 开尔文 温度 ， 而 不 是 摄氏 或 华氏 温度。 

你 想 要 的 天 气 描述 在 'main' 和 'description' 之 后 。 为 了 输出 整齐 ， 在 getOpenWeatherpy 
中 添加 以 下 代码 : 


! python3 
# getOpenWeather.py - Prints the weather for a location from the command line. 


- -SNip-- 


# Load JSON data into a Python variable. 
weatherData = json.loads(response.text) 


# Print weather descriptions. 

Ow = weatherData['list'] 
print('Current weather in %s:' % (location)) 
print(w[0O]['weather’'][0O]['main’], '-', w[O]['weather’][0]{['description']) 
print() 
print('Tomorrow:') 
print(w[1]['weather'][0]['main'], '-"“，wW[1]['weather'][0]1[ "description']) 
print() 
print('Day after tomorrow: ') 
print(w[2]['weather'][0]['main']， '-', w[2]['weather'][0]['description’]) 


请 注意 ， 代 码 将 weatherData[ 'list'] 保 存在 变量 w 中 ， 这 将 节省 一 些 打 字 时 间 @。 可 
以 用 w[0]、w[1] 和 w[2] 来 取得 今天 、 明 天 和 后 天 天 气 的 字典 。 这 些 字 典 都 有 'weather ' 键 ， 
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其 中 包含 一 个 列表 值 。 你 感 兴趣 的 是 第 一 个 表 项 (一 个 骨 套 的 字典 ， 包 含 几 个 键 )， 其 索引 是 0。 
这 里 ， 我 们 输出 保存 在 'main' 和 'description' 键 中 的 值 ， 用 连 字 符 隔 开 。 

如 果 用 命令 行 参 数 getOpenWeather .py San Francisco，CA 运行 这 个 程序 ， 那 么 输 
出 结果 看 起 来 是 这 样 的 : 


Current weather in San Francisco, CA: 
Clear - Sky is clear 

Tomorrow: 

Clouds - few clouds 


Day after tomorrow: 
Clear - sky is clear 


(天 气 是 我 喜欢 住 在 旧金山 的 原因 之 一 !) 
第 4 步 : 类 似 程序 的 想法 


访问 气象 数据 可 以 成 为 多 种 类 型 程序 的 基础 。 你 可 以 创建 类 似 程序 ， 完 成 以 下 任务 。 

口 收集 几 个 露营 地 点 或 远足 路 线 的 天 气 预 报 ， 看 看 哪 一 个 天 气 最 好 。 

口 如 果 需 要 将 植物 移 到 室内 ， 编 写 一 个 程序 定期 检查 天 气 并 发 送 钉 冻 警 报 〈 第 15 章 介绍 
了 定时 调度 ， 第 16 章 介绍 了 如 何 发 送 电子 邮件 )。 

口 从 多 个 站 点 获得 并 显示 气象 数据 ， 或 计算 并 显示 多 个 天 气 预报 的 平均 值 。 


16.6 小结 


CSV 和 JSON 是 常见 的 纯 文 本 格式 ， 用 于 保存 数据 。 它 们 很 容易 被 程序 解析 ， 同 时 仍然 让 
人 可 读 ， 因 此 它们 经 常 被 用 作 简 单 的 电子 表格 或 网 络 应 用 程序 的 数据 。csv 和 json 模块 大 大 
简化 了 读 取 和 写 入 CSV 和 JSON 文件 的 过 程 。 

前 面 几 章 教 你 如 何 利用 Python 从 各 种 各 样 的 文件 格式 中 解析 信息 。 一 个 常见 的 任务 是 接收 
多 种 格式 的 数据 ， 解 析 它 ， 并 获得 需要 的 特定 信息 。 这 些 任务 往往 非常 特别 ， 商 业 软 件 并 不 是 
最 有 帮助 的 。 通 过 编写 自己 的 脚本 ， 你 可 以 让 计算 机 处 理 大 量 以 这 些 格式 呈现 的 数据 。 

在 第 18 章 , 你 将 从 数据 格式 中 挣脱 , 学 习 如 何 让 程序 与 你 通信 、 发 送 电子 邮件 和 文本 消息 。 


16.7” 习 圳 


.哪些 功能 Excel 电子 表格 有 ， 而 CSV 电子 表格 没有 ? 

癌 csv.reader() 和 csv.writer() 传 入 什么 来 创建 reader 和 writer 对 象 ? 
对 于 reader 和 writer 对 象 ，File 对 象 需要 以 什么 模式 打开 ? 

. 什么 方法 接收 一 个 列表 参数 ， 并 将 其 写 入 CSV 文件 ? 

. delimiter 和 1lineterminator 关键 字 参 数 有 什么 用 ? 

.什么 函数 接收 一 个 JSON 数据 的 字符 串 ， 并 返回 一 个 Python 数据 结构 ? 

.什么 函数 接收 一 个 Python 数据 结构 ， 并 返回 一 个 JSON 数据 的 字符 串 ? 


-J QO 人 WDD 一 
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16.8 ”实践 项 目 
作为 实践 ， 编 程 完 成 下 列 任务 。 
Excel 到 CSYV 的 转换 程序 


Excel 可 以 将 电子 表格 保存 为 CSV 文件 ， 实 现 只 需要 点 几 下 鼠标 。 但 如 果 有 几 百 个 Excel 
文件 要 转换 为 CSV， 就 需要 单 击 几 小 时 。 利 用 第 12 章 的 openpyx1l 模块 ， 编 程 读 取 当 前 工作 
目录 中 的 所 有 Excel 文件 ， 并 输出 为 CSV 文件 。 

一 个 Excel 文件 可 能 包含 多 个 工作 表 ， 必须 为 每 个 表 创建 一 个 CSV 文件 。 CSYV 文件 的 文件 
名 应 该 是 <Excel 文件 名 > < 表 标 题 >.csv， 其 中 <Excel 文件 名 > 是 没有 扩展 名 的 Excel 文件 名 〔〈 例 
如 'spam_data'， 而 不 是 'spam_data.xlsx' )，< 表 标题 > 是 Worksheet 对 象 的 title 变量 
中 的 字符 串 。 

该 程序 将 包含 许多 媒 套 的 for 循环 。 程 序 的 框架 看 起 来 像 这 样 : 


for excelFile in os.listdir('.'): 
# Skip non-xlsx files, load the workbook object. 
for sheetName in wb.get sheet names(): 
# Loop through every sheet in the workbook. 
sheet = wb.get sheet by name (sheetName) 


# Create the CSV filename from the Excel filename and sheet title. 
# Create the csv.writer object for this CSV file. 


# Loop through every row in the sheet. 
for rowNum in range(1, sheet.max row + 1): 
rowData = [] # append each cell to this list 
# Loop through each cell in the row. 
for colNum in range(1, sheet.max column + 1): 
# Append each cell's data to rowData. 


# Write the rowData list to the CSV file. 


csvFile.closel() 


从 异步 社区 本 书 对 应 页 面 下 载 ZIP 文件 excelSpreadsheets.zip， 并 将 这 些 电子 表格 解压 缩 到 
程序 所 在 的 目录 中 。 可 以 使 用 这 些 文件 来 测试 程序 。 
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坐 在 计算 机 前 看 着 程序 运行 是 不 错 的 ， 但 在 你 没有 直接 监督 时 运行 
程序 也 是 可 以 的 。 计 算 机 的 时 钟 可 以 调度 程序 在 特定 的 时 间 和 日 期 运行 
或 定期 运行 。 例 如 ， 程 序 可 以 每 小 时 抓 取 一 个 网 站 ， 检 查 变更 ， 或 在 凌 
晨 4 点 你 睡觉 时 ， 执 行 CPU 密集 型 任务 。Python 的 time 和 datetime 
模块 提供 了 这 些 函 数 。 

利用 subprocess 和 threading 模块 ， 你 也 可 以 编程 以 按时 启动 
其 他 程序 。 通 常 ， 编 程 最 快 的 方法 是 利用 其 他 人 已 经 写 好 的 应 用 程序 。 


17.1 time 模块 


计算 机 的 系统 时 钟 设置 为 特定 的 日 期 、 时 间 和 时 区 。 内 置 的 time 模块 
让 Python 程序 能 读 取 系 统 时 钟 的 当前 时 间 。 在 time 模块 中 , time .time() 
和 time.sleep() 函 数 是 最 有 用 的 函数 。 


17.1.1 time.time() 函 数 


“UNIX 纪元 ”是 编程 中 经 常 参考 的 时 间 : 1970 年 1 月 1 日 0 点 ， 即 协调 世界 时 (UTC)。 
time.time() 函 数 返回 自 那 一 刻 以 来 的 秒 数 ， 它 是 一 个 浮 点 值 (回想 一 下 ， 浮 点 值 只 是 一 个 市 
小 数 点 的 数 )。 这 个 数字 称 为 UNIX“ 纪 元 时 间 惟 ” 例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> 七 ime.time() 
1543813875.3518236 


这 里 ， 我 在 2018 年 12 月 2 日 ， 太 平 洋 标准 时 间 9:11 pm， 调 用 time.time()。 返 回 值 是 
UNIX 纪元 的 那 一 刻 与 time .time() 被 调用 的 那 一 刻 之 间 的 秒 数 。 

纪元 时 间 戳 可 以 用 于 “剖析 ”代码 ， 也 就 是 测量 一 段 代 码 的 运行 时 间 。 如 果 在 代码 块 开始 
时 调用 time.time()， 并 在 结束 时 再 次 调用 ， 就 可 以 用 第 二 个 时 间 蕉 减 去 第 一 个 ， 得 到 这 两 
次 调用 之 间 的 时 间 。 例 如 ， 打 开 一 个 新 的 文件 编辑 器 窗口 ， 然 后 输入 以 下 程序 : 

import time 

@ def calcProd!(): 
# Calculate the product of the first 100,000 numbers. 


product = 1 
for i in range(1, 100000): 
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product = product * i 
return product 


©@ startTime = time.time() 
prod = calcProd () 
© endTime = time.timel() 
@ print('The result is %s digits long.' % (len(str(prod)))) 
© print('Took %s Seconds to calculate.' % (endTime - startTime)) 


在 @ 行 , 我 们 定义 了 函数 calcProd()，, 循环 遍历 1 至 99 999 的 整数 ， 并 返回 它们 的 乘积 。 
在 @ 行 ， 我们 调用 time .time()， 将 结果 保存 在 startTime 中 。 调 用 calcProd() 后 ， 我 们 
再 次 调用 time .time()， 将 结果 保存 在 endTime 中 @。 最 后 我 们 输出 calcProd () 返 回 的 乘 
积 的 长 度 @， 以 及 运行 calcProd() 的 时 间 @。 

将 该 程序 保存 为 calcProd.py， 并 运行 它 。 输 出 结果 看 起 来 像 这 样 : 


The result is 456569 digits long. 
Took 2.844162940979004 seconds to calculate. 


注意 : 另 一 种 剖析 代码 的 方法 是 利用 CProfile.run() 函数 。 与 简单 的 time .time() 技 术 相 比 ， 它 提供 
了 更 详细 的 信息 。 


time.time() 函 数 的 返回 值 是 有 用 的 ， 但 不 是 人 类 可 读 的 。time .ctime() 函 数 返 回 一 个 
关于 当前 时 间 的 字符 串 描述 。 你 也 可 以 选择 传 入 由 time.time() 函 数 返回 的 自 UNIX 纪元 以 
来 的 秒 数 ， 以 得 到 一 个 时 间 的 字符 串 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import time 

>>> time.ctimel() 

'Mon Jun 15 14:00:38 2020' 
>>> thisMoment = time.timel() 
>>> time.ctime(thisMoment) 
'Mon Jun 15 14:00:45 2020' 


17.1.2 time.sleep() 函 数 


如 果 需 要 让 程序 暂停 一 下 ， 就 调用 time.sleep() 函 数 ， 并 传 入 希望 程序 暂停 的 秒 数 。 在 
交互 式 环境 中 输入 以 下 代码 : 


>>> Import time 

>>> for i in range(3): 
© print('Tick') 
@ time.sleep(1) 
© print('Tock ' ) 
9 time.sleep(1) 


Tick 
Tock 
Tick 
Tock 
Tick 
Tock 
© >>> time.sleep(5) 
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for 循环 将 输出 Tick@， 暂 停 1 秒 @， 输 出 Tock 上 日 ， 暂 停 1 秒 @， 再 输出 Tick， 和 暂停 1 
秒 ， 如 此 继续 ， 直 到 Tick 和 Tock 分 别 被 输出 3 次 。 

time.sleep() 函 数 将 “阻塞 ”( 也 就 是 说 ， 它 不 会 返回 或 让 程序 执行 其 他 代码 )， 直 到 传 
递 给 time .sleep() 的 秒 数 流逝 。 例 如 ， 如 果 输 入 time.sleep(5) 人 @， 那 你 会 在 5 秒 后 才 看 
到 下 一 个 提示 符 (>>>)。 


17.2 ”数字 四 舍 五 入 


在 处 理 时 间 时 ， 你 经 常会 遇 到 小 数 点 后 有 许多 数字 的 浮 点 值 。 为 了 让 这 些 值 更 易于 处 理 ， 
可 以 用 Python 内 置 的 round() 函数 将 它们 缩短 ， 该 函数 按照 指定 的 精度 四 舍 五 入 一 个 浮 点 数 。 
只 要 传 入 要 处 理 的 数字 ， 再 加 上 可 选 的 第 二 个 参数 ， 指 明 需 要 传 入 小 数 点 后 多 少 位 即 可 。 如 采 
省 略 第 二 个 参数 , round ( ) 会 将 数字 四 舍 五 入 到 最 接近 的 整数 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import time 

>>> now = time.timel() 
>>> now 
1543814036.6147408 
>>> round(now, 2) 
1543814036 .61 

>>> round(now, 4) 
1543814036.6147 

>>> round(now) 
1543814037 


导入 time, 并 将 time .time( ) 保 存在 now 中 之 后 , 我 们 调用 round (now, 2), 来 将 now 
舍 入 到 小 数 点 后 两 位 数字 ; round (now，4) 舍 入 到 小 数 点 后 4 位 数字 ; round (now) 舍 入 到 最 
接近 的 整数 。 


17.3 项 目 : 超级 秒表 


假设 要 记录 在 没有 自动 化 的 繁琐 任务 上 花 了 多 少时 间 。 你 没有 物理 秒表 ， 要 为 便携 式 计 算 
机 或 智能 手机 找到 一 个 免费 、 没 有 广告 且 不 会 将 你 的 浏览 历史 发 送 给 市 场 营销 人 员 的 秒表 应 用 又 
出 乎 意料 地 困难 (在 你 同意 的 许可 协议 中 ， 它 说 它 可 以 这 样 做 。 你 确实 阅读 了 许可 协议 ， 不 是 
吗 ? )。 你 可 以 自己 用 Python 写 一 个 简单 的 秒表 程序 。 

总 的 来 说 ， 程 序 需要 完成 以 下 任 分。 

1. 记录 从 按 回 车 键 开 始 每 次 按键 的 时 间 ， 每 次 按键 都 是 一 个 新 的 “ 单 圈 ”。 

2. 输出 圈 数 、 总 时 间 和 单 圈 时 间 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 在 程序 开始 时 ， 调 用 time.time() 得 到 当前 时 间 ， 并 将 它 保存 为 一 个 时 间 崔 。 在 每 个 
单 圈 开 始 时 都 一 样 。 

2. 记录 圈 数 ， 每 次 用 户 按 回 车 键 时 加 1。 

3. 用 时 间 戳 相 减 ， 计 算 流逝 的 时 间 。 

4. 处 理 KeyboardInterrupt 异常 ， 这 样 用 户 可 以 按 Ctrl-C 快捷 键 退 出 。 
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打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 stopwatch.py。 
第 1 步 : 设置 程序 来 记录 时 间 


秒表 程序 需要 用 到 当前 时 间 ， 因 此 要 导入 time 模块 。 程 序 在 调用 input () 之 前 ， 也 应 该 
向 用 户 输出 一 些 简 短 的 说 明 ， 这 样 计 时 器 可 以 在 用 户 按 回 车 键 后 开始 。 然 后 ， 代 码 将 开始 记录 


单 圈 时 间 。 
在 文件 编辑 器 中 输入 以 下 代码 ， 为 其 余 的 代码 编写 TODO 注释 作为 占 位 符 : 
#! python3 


# stopwatch.py - A simple stopwatch program. 
import time 
# Display the program's instructions. 


print('Press ENTER to begin. Afterward, press ENTER to "click" the stopwatch. 
Press Ctrl-C to quit.') 


input() # press Enter to begin 
print('Started.') 

startTime = time.timel() # get the first lap's Start time 
lastTime = startTime 

lapNum = 1 


# TODO: Start tracking the lap times. 


既然 我 们 已 经 编码 显示 了 用 户 说 明 ， 那 就 开始 第 一 圈 ， 记 下 时 间 ， 并 将 圈 数 设 为 1。 
第 2 步 : 记录 并 输出 单 圈 时 间 


现在 ， 让 我 们 开始 为 每 一 个 新 的 单 圈 编码 ， 计 算 前 一 圈 花 了 多 少时 间 ， 并 计算 自 启动 秒表 
后 经 过 的 总 时 间 。 我 们 将 显示 单 圈 时 间 和 总 时 间 ， 并 为 每 个 新 的 单 圈 增加 圈 计 数 。 将 下 面 的 代 
码 添加 到 程序 中 : 


#! python3 
# stopwatch.py - A simple stopwatch program. 


import time 


--Snip-- 
# Start tracking the lap times. 
0 try: 
@ while True: 
input() 
© lapTime = round(time.time() - lastTime, 2) 
@ totalTime = round(time.time() - startTime, 2) 
© print('Lap #%s: %s (%s)' % (lapNum, totalTime, lapTime), end='') 
lapNum += 1 
lastTime = time.time() # reset the last lap time 
© except KeyboardInterrupt : 
# Handle the Ctrl-C exception to keep its error message from displaying. 
print('\nDone.') 


如 果 用 户 按 Ctrl-C 快捷 键 停止 秒表 ,程序 将 抛 出 KeyboardInterrupt 异常 。 如 果 程序 的 
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执行 不 是 一 个 try 语句 ,程序 就 会 崩溃 。 为 了 防止 崩溃 ,我 们 将 这 部 分 程序 包装 在 一 个 try 语 
句 中 @。 我 们 将 在 except 子 句 中 处 理 异 常 @， 所 以 当 Ctrl-C 快捷 键 按 下 并 引发 异常 时 ， 程 序 
执行 转向 except 子 句 ， 并 输出 Done， 而 不 是 KeyboardInterrupt 错误 信息 。 在 此 之 前 ， 
执行 处 于 一 个 无 限 循环 中 @， 调 用 input ( ) 并 等 待 ， 直 到 用 户 按 回 车 键 结束 一 圈 。 当 一 圈 结 束 
时 , 我 们 用 当前 时 间 time .time( ) 减 去 该 圈 开 始 的 时 间 lastTime, 计算 该 圈 伦 了 多 少时 间 利 。 
我 们 用 当前 时 间 减 去 秒表 最 开始 启动 的 时 间 startTime， 计 算 总 共 流 逝 的 时 间 @。 

由 于 这 些 时 间 计 算 的 结果 在 小 数 点 后 有 许多 位 (如 4.766272783279419),， 因此 我 们 在 @ 
和 @ 行 用 round () 函数 ， 将 浮 点 值 四 舍 五 入 到 小 数 点 后 两 位 。 

在 @ 行 , 我 们 输出 圈 数 、 消 耗 的 总 时 间 和 单 圈 时 间 。 由 于 用 户 为 Input ( ) 调 用 按 回 车 键 时 ， 
会 在 屏幕 上 输出 一 个 换行 ， 因 此 我 们 向 print( ) 函数 传 入 end=' ' ， 避 免 输出 重复 空 行 。 输 出 
单 圈 信 息 后 ， 我 们 将 计数 器 lapNum 加 1， 将 lastTime 设置 为 当前 时 间 〈 这 就 是 下 一 圈 的 开 
始 时 间 )， 从 而 为 下 一 圈 做 好 准备 。 


第 3 步 : 类 似 程序 的 想法 


时 间 记 录 为 程序 提供 了 几 种 可 能 性 。 虽 然 可 以 下 载 应 用 程序 来 做 其 中 一 些 事情 ， 但 目 己 纺 
程 的 好 处 是 它们 是 免费 的 ， 而 且 不 会 充斥 着 广告 和 无 用 的 功能 。 可 以 编写 类 似 的 程序 来 完成 以 
下 任务 。 

口 创建 一 个 简单 的 工时 表 应 用 程序 ， 当 输入 一 个 人 的 名 字 时 ， 用 当前 的 时 间 记 录 下 他 们 进 


入 或 离开 的 时 间 。 
口 为 你 的 程序 添加 一 个 功能 ， 显 示 自 一 项 处 理 开始 以 来 的 时 间 ， 如 利用 requests 模块 进 
行 的 下 载 。 


口 间歇 性 地 检查 程序 已 经 运行 了 多 和 久 ， 并 为 用 户 提供 一 个 机 会 取消 耗 时 太 长 的 任务 。 
17.4 ”datetime 模块 


time 模块 用 于 取得 UNIX 纪元 时 间 惟 ， 并 加 以 处 理 。 但 是 ， 如 果 以 更 方便 的 格式 显示 日 
期 或 对 日 期 进行 算术 运算 (例如 ， 搞 清楚 205 天 前 是 什么 日 期 或 123 天 后 是 什么 日 期 )， 就 应 该 
使 用 datetime 借 块 。 

datetime 模块 有 自己 的 datetime 数据 类 型 。datetime 值 表示 一 个 特定 的 时 刻 。 在 交 
互 式 环境 中 输入 以 下 代码 : 


>>> import datetime 
@ >>> datetime .datetime.now() 
© datetime.datetime(2019, 2, 27, 11, 10, 49, 55, 53) 
© >>> dt = datetime.datetime(2019, 10, 21, 16, 29, 0) 
© >>> dt.year, dt.month, dt.day 

(2019，10，21) 
© >>> dt.hour, dt.minute, dt.second 

(16, 29, 0) 


根据 你 的 计算 机 的 时 钟 , 调用 datetime.datetime.now()O@ 会 返回 一 个 datetime 对 象 
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@， 以 表示 当前 的 日 期 和 时 间 。 这 个 对 象 包含 当前 时 刻 的 和 年、 月、 日 、 时 、 分 、 秒 和 微 秒 。 也 
可 以 利用 datetime.datetime() 函 数目 ， 并 向 它 传 入 代表 年 、 月 、 日 、 时 、 分 、 秒 的 整数 ， 
以 得 到 特定 时 刻 的 datetime 对 象 .这 些 整数 将 保存 在 datetime 对 象 的 year、month、day@、 
hour、minute 和 second@ 属 性 中 。 

UNIX 纪元 时 间 惟 可 以 通过 datetime.datetime.fromtimestamp() 转 换 为 datetime 
对 象 。datetime 对 象 的 日 期 和 时 间 将 根据 本 地 时 区 转换 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> Import datetime, time 

>>> datetime.datetime.fromtimestamp(1000000) 

datetime.datetime(1970, 1, 12, 5, 46, 40) 

>>> datetime.datetime.fromtimestamp (time.time()) 

datetime.datetime(2019, 10, 21, 16, 30,0,， 604980) 

调用 datetime.datetime.fromtimestamp() 并 传 入 1000000， 返 回 一 个 datetime 
对 象 ， 表 示 UNIX 纪元 后 1 000 000 秒 的 时 刻 。 传 入 time .time()， 即 当前 时 刻 的 UNIX 纪元 
时 间 惟 ， 则 返回 当前 时 刻 的 datetime 对 象 。 因 此 ， 表 达 式 datetime .datetime.now() 和 
datetime.datetime.fromtimestamp(time. time()) 做 的 事情 相同 ， 它 们 都 返回 当前 时 
刻 的 datetime 对 象 。 

datetime 对 象 可 以 用 比较 操作 符 进 行 比较 ， 弄 清楚 谁 在 前 面 。 后 面 的 datetime 对 象 是 


“更 大 ”的 值 。 在 交互 式 环境 中 输入 以 下 代码 : 


0 >>> halloween2019 = datetime.datetime(2019，10，31，0，0，0) 
© >>> newyears2020 = datetime.datetime(2020, 1, 1, 0, 0, 0) 
>>> oct31 2019 = datetime.datetime(2019, 10, 31, 0,， 0,，0) 
© >>> halloween2019 == oct31 2019 
True 
9 >>> halloween2019 > newyears2020 
False 
© >>> newyears2020 > halloween2019 
True 
>>> newyears2020 != oct31 2019 
True 


为 2019 年 10 月 31 日 的 第 一 个 时 刻 ( 午 夜 ) 创建 一 个 datetime 对 象 ， 将 它 保存 在 
halloween2019 中 @。 为 2020 年 1 月 1 日 的 第 一 个 时 刻 创建 一 个 datetime 对 象 ， 将 它 保存 
在 newyears2020 中 @。 然 后 ， 为 2019 年 10 月 31 日 的 午夜 创建 男 一 个 对 象 ， 将 它 保 存在 
oct31_2019 中 。 比 较 halloween2019 和 oct31 2019, 它 们 是 相等 的 目 。 比 较 newyears2020 
和 halloween2019，newyears2020 大 于 ( 晚 于 ) halloween2019@6.。 


17.4.1 timedelta 数据 类 型 


datetime 模块 还 提供 了 timedelta 数据 类 型 , 它 表 示 一 个 “时 段 ”, 而 不 是 一 个 “时 刻 ”。 
在 交互 式 环境 中 输入 以 下 代码 : 
0 >>> delta = datetime.timedelta(days=11, hours=10, minutes=9, seconds=8) 
© >>> delta.days, delta.seconds, delta.microseconds 


(11,. 36548,; 0) 
>>> delta.total seconds() 


316 第 17 章 保持 时 间 、 计 划 任 务 和 启动 程序 


986948.0 
>>> str(delta) 
‘11 days, 10:09:08" 


要 创建 timedelta 对 象 ,就 用 datetime.timedelta() 函 数 ,datetime. timedelta() 
函数 接收 关键 字 参 数 weeks、days、hours、minutes、Sseconds、milliseconds 和 
microseconds。 没 有 month 和 year 关键 字 参 数 ， 这 是 因为 “月 ”和 “年 ”是 可 变 的 时 间 ， 
依赖 于 特定 月 份 或 年 份 。timedelta 对 象 拥 有 的 总 时 间 以 天 、 秒 、 微 秒 来 表示 。 这 些 数 字 分 别 
保存 在 days、seconds 和 microseconds 属性 中 。total_seconds () 方 法 返回 只 以 秒表 示 的 
时 间 。 将 一 个 timedelta 对 象 传 入 str()， 将 返回 格式 良好 的 、 人 类 可 读 的 字符 串 表 示 形 式 。 

在 这 个 例子 中 ， 我 们 将 关键 字 参 数 传 入 datetime.timedelta()， 指 定 11 天 、10 小 时 、 
9 分 和 8 秒 的 时 间 , 将 返回 的 timedelta 对 象 保存 在 delta 中 @ .该 timedelta 对 象 的 days 
属性 为 11, seconds 属性 为 36 548 (10 小 时 、9 分 钟 、8 秒 , 以 秒表 示 ) 四 。 调 用 total_seconds () 
可 得 到 11 天 、10 小 时 、9 分 和 8 秒 是 986 948 秒 。 最 后 ， 将 这 个 timedelta 对 象 传 入 str()， 
返回 一 个 字符 串 ， 明 确 解释 了 这 段 时 间 。 

算术 运算 符 可 以 用 于 对 datetime 值 进行 “日 期 运算 ”。 例 如 ， 要 计算 今天 之 后 1000 天 的 
日 期 ， 可 在 交互 式 环境 中 输入 以 下 代码 : 


>>> dt = datetime.datetime.now() 

>>> dt 
datetime.datetime(2018，12，2，18，38，50，636181 ) 
>>> 上 thousandDays = datetime.timedelta(days=1000) 
>>> dt + thousandDays 

datetime.datetime(2021, 8, 28, 18, 38, 50,，636181) 


首先 , 生成 表示 当前 时 刻 的 datetime 对 象 , 将 其 保存 在 dt 中 。 然 后 生成 一 个 timedelta 
对 象 ， 它 表示 1000 天 ， 保 存在 thousandDays 中 。 将 dt 与 thousandDays 相 加 ， 得 到 一 个 
datetime 对 象 ， 表示 现 在 之 后 的 1000 天 。Python 将 完成 日 期 运算 ， 弄 清楚 2018 年 12 月 2 日 
之 后 的 1000 天 将 是 2021 年 8 月 28 日 。 这 很 有 用， 因为 如 果 要 从 一 个 给 定 的 日 期 计算 1000 
天 之 后 ， 需 要 记 住 每 个 月 有 多 少 天 、 装 年 的 因素 和 其 他 环 手 的 细节 。datetime 模块 将 为 你 
处 理 所 有 这 些 问 题 。 
利用 + 和 -运算 符 ，timedelta 对 象 可 以 与 datetime 对 象 或 其 他 timedelta 对 象 相 加 或 
相 减 。 利 用 * 和 /运算 符 ，timedelta 对 象 可 以 乘 以 或 除 以 整数 或 浮 点 数 。 在 交互 式 环境 中 输入 
以 下 代码 : 
@ >>> oct21st = datetime.datetime(2019，10，21，16，29，0) 
四 >>> aboutThirtyYears = datetime.timedelta(days=365 * 30) 
>>> oct21st 
datetime .datetime(2019，10，21，16，29) 
>>> oct21st - aboutThirtyYears 
datetime.datetime(1989，10，28，16，29) 


>>> oct21st - (2 * aboutThirtyYears) 
datetime .datetime(1959，11，5，16，29) 


这 里 ， 我 们 生成 了 一 个 DateTime 对 象 ， 表 示 2019 年 10 月 21 日 @; 生成 了 一 个 timedelta 
对 象 , 表示 大 约 30 年 的 时 间 (我 们 假设 每 年 为 365 天 ) @。 从 oct21st 中 减 去 aboutThirtyYears， 
我 们 就 得 到 一 个 datetime 对 象 ， 它 表示 2019 年 10 月 21 日 前 30 年 的 一 天 。 从 oct21st 中 
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减 去 2 * aboutThirtyYears， 得 到 一 个 datetime 对 象 ， 它 表示 2019 年 10 月 21 日 之 前 60 
年 的 一 天 。 


17.4.2 暂停 直至 特定 日 期 


time.sleep() 方 法 可 以 暂停 程序 若干 秒 。 利 用 一 个 while 循环， 可 以 让 程序 暂停 一 段 特 
定 的 时 间 。 例 如 ， 下 面 的 代码 会 继续 循环 ， 直 到 2016 年 万 圣 节 : 


import datetime 

import time 

halloween2016 = datetime.datetime(2016, 10, 31, 0, 0, 0) 

while datetime.datetime.now() < halloween2016: 
time.sleep(1) 


time.Sleep(1) 调 用 将 暂停 你 的 Python 程序, 这样 计算 机 就 不 会 浪费 CPU 处 理 周期 来 一 


遍 又 一 过 地 检查 时 间 。 相 反 ，while 循环 只 是 每 秒 检查 一 次 ， 在 2016 年 万 圣 节 (或 你 编程 让 
它 停止 的 时 间 〉 后 继续 执行 后 面 的 程序 。 


17.4.3 将 datetime 对 象 转换 为 字符 串 


UNIX 纪元 时 间 惟 和 datetime 对 象 对 人 类 来 说 都 不 是 很 方便 阅读 。 利 用 strftime() 方 
法 可 以 将 datetime 对 象 显示 为 字符 串 。(strftime() 方 法 名 中 的 和 表示 格式 ， 即 format。 ) 

strftime() 方 法 使 用 的 指令 类 似 于 Python 的 字符 串 格式 化 。 表 17-1 所 示 为 完整 的 
strftime() 指 令 。 


表 17-1 完整 的 strftime() 指 令 


strftime 指令 含义 
%Y 带 世 纪 的 年 份 ， 例 如 '2014' 
%y 不 带 世 纪 的 年 份 ，'00' 至 '99' (1970 至 2069) 
Sm 数字 表示 的 月 份 , '01' 至 '12' 
%B 完整 的 月 份 ， 例 如 'November， 
%b 简写 的 月 份 ， 例 如 'Nov， 
%d 一 月 中 的 第 几 天 ，'01' 至 '31' 
%]j 一 年 中 的 第 几 天 ，'001' 至 '366 
%W 一 周 中 的 第 几 天 ，'0' ( 周 日 ) 至 '6' ( 周 六 ) 
%A 完整 的 周 几 ， 例 如 'Monday ' 
%a 简写 的 周 几 ， 例 如 'Mon， 
%H 小 时 〈24 小 时 时 钟 )，'00 ' 至 '23， 
%I 小 时 《12 小 时 时 钟 )，'01 ' 至 '12， 
%M 分 ，'00' 至 '59' 
%S 秒 ，'00 ' 至 '59， 
%p 'AM' 或 'PM' 
%% 就 是 '%' 字 符 
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向 strftime() 传 入 一 个 定制 的 格式 字符 串 , 其 中 包含 格式 化 指定 (以 及 任何 需要 的 斜 线 、 
冒号 等 )。strftime() 将 返回 一 个 格式 化 的 字符 串 ， 以 表示 datetime 对 象 的 信息 。 在 交互 式 
环境 中 输入 以 下 代码 : 


>>> oct21st = datetime.datetime(2019, 10, 21, 16, 29, 0) 
>>> oct21st.strftime('%Y/%m/%d %H:%M:%S"') 

"2019/10/21 16:29:00' 

>>> oct21st.strftime('%I:%M %p') 

'04:29 PM' 

>>> oct21st.strftime("%B of '%y") 

"October of '19" 


这 里 ， 我 们 有 一 个 datetime 对 象 ， 它 表示 2019 年 10 月 21 日 下 午 4 点 29 分 ， 保 存在 
oct21st 中 。 向 strftime() 传 入 定制 的 格式 字符 串 '%Y/%m/%d %H:%M:%S; 并 返回 一 个 字符 串 ， 
它 包含 以 斜 杠 分 隔 的 2019、10 和 21， 以 及 以 冒号 分 隔 的 16、29 和 00。 传 入 '%I:%M%s p' 则 返回 
'04:29 PM'， 传 入 "%B of '%y" 则 返回 "0ctober of '19"。 请 注意 ，strftime() 不 是 以 
datetime.datetime 开始 的 。 


17.4.4 将 字符 串 转 换 成 datetime 对 象 


如 果 有 一 个 字符 串 的 日 期 信息 ， 如 '2019/110/21 16:29:00' 或 '0ctober 21，2019 '， 
需要 将 它 转换 为 datetime 对 象 ,就 用 datetime.datetime.strftime() 函 数 .strptime() 
函数 与 strftime() 函 数 相 反 。 自 定义 的 格式 字符 串 使 用 的 指令 与 strftime() 的 相同 。 必 须 
将 该 格式 字符 串 传 入 strptime()， 这 样 它 就 知道 如 何 解析 和 理解 日 期 字符 串 (strptime() 
函数 名 中 p 表示 解析 ， 即 parse) 了。 

在 交互 式 环境 中 输入 以 下 代码 : 


©@ >>> datetime .datetime.strptime('0ctober 21, 2019', '%B %d, %Y') 
datetime.datetime(2019, 10, 21, 0, 0) 
>>> datetime.datetime.strptime('2019/10/21 16:29:00', '%Y/%m/%d %H:%M:%S") 
datetime .datetime(2019，10，21，16，29) 
>>> datetime.datetime.strptime("October of '19", "%B of "sy"”) 
datetime.datetime(2019, 10, 1, 0,，0) 
>>> datetime.datetime.strptime("November of '63", "%B of '%y") 
datetime.datetime(2063，11，1，0，0) 


要 从 字符 串 '0ctober 21，2019 ' 取 得 一 个 datetime 对 象 ， 需 要 将 该 字符 串 作 为 第 一 个 
参数 传递 给 strptime( )， 并 将 对 应 于 '0ctober 21，2019' 的 定制 格式 字符 串 作为 第 二 个 参数 @、。 
带 有 日 期 信息 的 字符 串 必 须 准确 匹配 定制 的 格式 字符 串 ， 否 则 Python 将 抛 出 ValueError 异常 。 


17.5 ”回顾 Python 的 时 间 函 数 


在 Python 中 ,日 期 和 时 间 可 能 涉及 好 几 种 不 同 的 数据 类 型 和 函数 。 下 面 回 顾 -- 下 表示 时 间 
的 3 种 不 同类 型 的 值 。 
D UNIX 纪元 时 间 惟 (time 模块 中 使 用 ) 是 一 个 浮 点 值 或 整 型 值 ， 表 示 日 1970 年 1 月 1 
日 午夜 0 点 以 来 的 秒 数 。 
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口 datetime 对 象 (属于 datetime 模块 ) 包含 一 些 整 型 值 , 保存 在 year、month、day、 
hour、minute 和 second 等 属性 中 。 

口 timedelta 对 象 〈 属 于 datetime 模块 ) 表示 的 是 一 段 时 间 ， 而 不 是 一 个 特定 的 时 刻 。 

下 面 回 顾 一 下 时 间 函 数 及 其 参数 和 返回 值 。 

D time .time() 函 数 返 回 一 个 浮 点 值 ， 表 示 当 前 时 刻 的 UNIX 纪元 时 间 惟 。 

DOD time.sleep(seconds) 函 数 让 程序 暂停 seconds 参数 指定 的 秒 数 。 

口 datetime.datetime(year，month，day，hour，minute，second) 函数 返回 参 
数 指定 的 时 刻 的 datetime 对 象 。 如 果 没 有 提供 hour、minute 或 second 参数 ， 那 么 
它们 默认 为 0。 

D datetime.datetime.now( ) 水 数 返 回 当前 时 刻 的 datetime 对 象 。 

口 datetime.datetime.fromtimestamp(epoch) 函 数 返回 epoch 时 间 堆 参数 表示 的 
时 刻 的 datetime 对 象 。 

DQ datetime.timedelta(weeks, days, hours, minutes, seconds, milliseconds, 
microseconds ) 函 数 返回 一 个 表示 一 段 时 间 的 timedelta 对 象 。 该 函数 的 关键 字 参 数 
都 是 可 选 的 ， 不 包括 month 或 year。 

口 total seconds () 方 法 用 于 timedelta 对 象 ， 返 回 timedelta 对 象 表示 的 秒 数 。 

D strftime(format ) 方 法 返回 一 个 时 间 字 符 串 ， 由 datetime 对 象 表示 ， 该 时 间 字 符 
串 采 用 基于 format 字符 串 的 自 定 义 格 式 。 详 细 格 式 参见 表 17-1。 

D datetime.datetime.strptime(time string，format) 函 数 返 回 一 个 datetime 
对 象 ， 它 的 时 刻 由 time_string 指定 ， 并 利用 format 字符 串 参 数 来 解析 。 详 细 格 式 
参见 表 17-1。 


17.6 ”多 线程 


为 了 引入 多 线程 的 概念 ， 让 我 们 来 看 一 个 例子 。 假 设 你 想 安 排 一 些 代码 在 特定 时 间 运 行 ， 
那么 可 以 在 程序 启动 时 添加 如 下 代码 : 
import time, datetime 


startTime = datetime.datetime(2029, 10, 31, 0, 0，0) 
while datetime.datetime.now() < StartTime : 
time.sleep(1) 


print('Program now starting on Halloween 2029') 
~--SNip-- 


这 段 代 码 指 定 2029 年 10 月 31 日 作为 开始 时 间 ， 从 当前 时 刻 开 始 不 断 调用 
time.sleep(1)， 直 到 开始 时 间 startTime。 在 等 待 time .sleep() 的 循环 调用 完成 时 ， 程 
序 不 能 做 任何 事情 ， 它 只 是 待 在 那里 ， 直 到 2029 年 万 圣 节 。 这 是 因为 Python 程序 在 默认 情况 
下 只 有 一 个 执行 线程 。 

要 理解 什么 是 执行 线程 ， 就 要 回忆 第 2 章 关 于 控制 流 的 讨论 ， 当 时 你 想象 程序 的 执行 就 像 
把 手指 放 在 一 行 代 码 上 ， 然 后 移动 到 下 一 行 或 是 控制 流 语句 让 它 去 的 任何 地 方 。“ 单 线程 ” 程 
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序 只 有 一 个 “手指 ” 但 “多 线程 ”程序 有 多 个 “手指 ”。 每 个 “手指 ”仍然 移动 到 控制 流 语 
句 定义 的 下 一 行 代码 ， 但 这 些 “ 手 指 ” 可 以 在 程序 的 不 同 地 方 同 时 执行 不 同 的 代码 行 。( 到 目 
前 为 止 ， 本 书 所 有 的 程序 都 是 单线 程 的 。) 

不 必 让 所 有 的 代码 等 待 time.sleep() 函数 完成 后 再 执行 ， 你 可 以 使 用 Python 的 
threading 模块 以 在 单独 的 线程 中 执行 延迟 或 安排 的 代码 。 这 个 单独 的 线程 将 因为 
time.sleep() 调 用 而 暂停 。 同 时 ， 程 序 可 以 在 原来 的 线程 中 做 其 他 工作 。 

要 得 到 单独 的 线程 , 首先 要 调用 threading.Thread () 函 数 来 生成 一 个 Thread 对 象 。 在 
新 的 文件 中 输入 以 下 代码 ， 并 保存 为 threadDemo.py: 


import threading, time 
print('Start of program.') 


0 def takeANap(): 
time.sleep(5) 
print('Wake up!') 


© threadobj = threading.Thread(target=takeANap) 
© threadObj .start () 


print('End of program.') 


在 @ 行 ， 我 们 定义 了 一 个 希望 用 于 新 线程 的 函数 。 为 了 创建 一 个 Thread 对 象 ， 我 们 调用 
threading.Thread()， 并 传 入 关键 字 参 数 target=takeANap@。 这 意味 着 我 们 要 在 新 线程 
中 调用 的 函数 是 takeANap()。 请 注意 ， 关 键 字 参数 是 target=takeANap ， 而 不 是 
target=takeANap() 。 这 是 因为 你 想 将 takeANap() 函数 本 身 作 为 参数 ， 而 不 是 调用 
takeANap( ) 并 传 入 它 的 返回 值 。 

我 们 将 threading.Thread() 创 建 的 Thread 对 象 保存 在 thread0bj 中 ， 然 后 调用 
thread0bj .start()@ 来 创建 新 的 线程 ， 并 开始 在 新 线程 中 执行 目标 函数 。 如 果 运 行 该 程序 ， 
输出 结果 将 像 这 样 : 


Start of program. 
End of program. 
Wake up! 


这 可 能 有 点 令 人 困惑 。 如 果 print('End of program.') 是 程序 的 最 后 一 行 ， 你 可 能 会 
认为 它 是 最 后 输出 的 内 容 。Wake up! 在 它 后 面 ， 是 因为 当 thread0bj . start() 被 调用 时 ， 
thread0bj 的 目标 函数 在 一 个 新 的 执行 线程 中 运行 ,将 它 看 成 出 现在 takeANap ( ) 国 数 开始 处 
第 二 根 “ 手 指 ”。 主 线程 继续 执行 print('End of program.')。 同 时 ， 新 线程 已 执行 了 
time.sleep(5) 调 用 ， 暂 停 5 秒 。 之 后 它 从 5 秒 “ 小 睡 ” 中 醒 来 ， 输 出 了 'Wake up!'， 然 后 
从 takeANap ( ) 函数 返回 。 按 时 间 顺 序 ，'Wake up!' 是 程序 最 后 输出 的 内 容 。 

通常 , 程序 在 文件 的 最 后 一 行 代 码 执行 后 终止 (或 调用 sys .exit() )。 但 threadDemo.py 有 
两 个 线程 。 第 一 个 是 最 初 的 线程 ， 从 程序 开始 处 开始 ， 在 执行 print('End of program.') 
后 结束 。 第 二 个 线程 是 调用 thread0bj .start() 时 创建 的 , 始 于 takeANap( ) 函数 的 开始 处 ， 
在 takeANap () 返 回 后 结束 。 

在 程序 的 所 有 线程 终止 之 前 ，Python 程序 不 会 终止 。 在 运行 threadDemo.py 时 ， 即 使 最 初 
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的 线程 已 经 终止 ， 第 二 个 线程 仍然 执行 +ime.sleep(5) 调 用 。 


17.6.1 回 线 程 的 目标 函数 传递 参数 


如 果 想 让 在 新 线程 中 运行 的 目标 函数 有 参数 , 那么 可 以 将 目标 函数 的 参数 传 入 threading . 
Thread() 。 例 如 ， 假 设想 在 自己 的 线程 中 运行 以 下 print () 调 用 : 


>>> print('Cats', ‘Dogs', 'Frogs', sep=' & ') 
Cats & Dogs & Frogs 


该 print() 调 用 有 3 个 常规 参数 :'Cats'、'Dogs' 和 'Frogs'。 还 有 一 个 关键 字 参 数 : 
sep=' & '。 常 规 参 数 可 以 作为 一 个 列表 ， 传 递 给 threading.Thread() 中 的 args 关键 字 参 数 。 
关键 字 参 数 可 以 作为 一 个 字典 ， 传 递 给 threading.Thread() 中 的 kwargs 关键 字 人 参数。 

在 交互 式 环境 中 输入 以 下 代码 : 


>>> import threading 

>>> thread0bj = threading.Thread(target=print, args=['Cats', 'Dogs', ‘Frogs'], 
kwargs={'sep': ' & '}) 

>>> thread0bj.start() 

Cats & Dogs & Frogs 


为 了 确保 参数 'Cats' 、'Dogs' 和 'Frogs' 传递 给 新 线程 中 的 print() ， 我 们 将 
args=['Cats'，'Dogs'，'Frogs'] 传 入 threading.Thread() 。 为 了 确保 关键 字 参 数 sep=' 
& “传递 给 新 线程 中 的 print () ， 我 们 将 kwargs={'sep': '& '} 传 入 threading.Thread()。 

threadobj .start() 调 用 将 创建 一 个 新 线程 来 调用 print() 函 数 ， 它 会 传 入 'Cats'、 
'Dogs' 和 'Frogs' 作 为 参数 ， 并 传 入 ' & “作为 sep 关键 字 参 数 。 

下 面 所 列 的 创建 新 线程 调用 print ( ) 的 方法 是 不 正确 的 : 

threadobj = threading.Thread(target=print('Cats', 'Dogs' ， 'Frogs', sep=' & ')) 

这 行 代码 最 终 会 调用 print() 函 数 ， 并 将 它 的 返回 值 (print() 的 返回 值 总 是 None) 作 
为 target 关键 字 参 数 。 它 没有 传递 print ( ) 函数 本 身 。 如 果 要 向 新 线程 中 的 函数 传递 参数 ， 
就 要 使 用 threading.Thread() 函 数 的 args 和 kwargs 关键 字 参 数 。 


17.6.2 ”并 发 问题 


可 以 轻松 地 创建 多 个 新 线程 ， 让 它们 同时 运行 。 但 多 线程 也 可 能 会 导致 所 谓 的 并 发 问题 。 
如 果 这 些 线程 同时 读 写 变量 ， 就 会 导致 互相 干扰 ， 从 而 会 发 生 并 发 问题 。 并 发 问题 可 能 很 难 一 
致 地 重 现 ， 因 此 难以 调试 。 

多 线程 编程 本 身 就 是 一 个 广泛 的 主题 ， 超 出 了 本 书 的 范围 。 必 须 记 住 的 是 : 为 了 避免 并 发 
问题 ， 绝 不 能 让 多 个 线程 读 取 或 写 入 相同 的 变量 。 当 创建 一 个 新 的 Thread 对 象 时 ， 要 确保 其 目 
标 函 数 只 使 用 该 函数 中 的 局 部 变量 。 这 将 避免 程序 中 难以 调试 的 并 发 问题 。 


注意 : 在 No Starch 出 版 社 官网 本 书 对 应 页 面 ， 有 关于 多 线程 编程 的 初学 者 教程 。 
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17.7 项 目 : 多 线程 XKCD 下 载 程序 


在 第 12 章 ， 你 编写 了 一 个 程序 以 从 XKCD 网 站 下 载 所 有 的 XKCD 漫画 。 这 是 一 个 单线 程 
程序 ， 它 一 次 下 载 一 幅 漫画 。 程 序 运行 的 大 部 分 时 间 用 于 建立 网 络 连接 来 开始 下 载 ， 以 及 将 下 
载 的 图 像 写 入 硬盘 。 如 果 你 有 宽带 因特网 连接 ， 那 么 单线 程 程序 并 没有 充分 利用 可 用 的 带宽 。 

多 线程 程序 可 以 让 一 些 线程 下 载 漫 画 ， 同 时 让 另 一 些 线程 建立 连接 或 将 漫画 图 像 文件 写 入 
硬盘 。 它 更 有 效 地 使 用 Internet 连接 ， 更 迅速 地 下 载 这 些 漫画 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 
并 保存 为 multidownloadXkcd.py。 你 将 修改 这 个 程序 ， 并 添加 多 线程 。 经 过 全 面 修 改 的 源 代 码 可 
从 异步 社区 本 书 对 应 页 面 下 载 。 


第 1 步 : 修改 程序 以 使 用 函数 


该 程序 的 大 部 分 是 来 自 第 12 章 的 代码 ， 所 以 我 会 跳 过 Requests 和 BeautifulSoup 代码 的 
解释 。 需 要 完成 的 主要 变更 是 导入 threading 模块 ， 并 定义 downloadXkcd() 函 数 ， 该 函数 
接收 开始 和 结束 的 漫画 编号 作为 参数 。 

例如 ， 调 用 downloadXkcd(140,280) 将 循环 执行 下 载 代码 ， 依 次 下 载 漫 画 。 你 创建 的 每 
个 线程 都 会 调用 downloadXkcd()， 并 传 入 不 同 范围 的 漫画 进行 下 载 。 

将 下 面 的 代码 添加 到 threadedDownloadXkcd.py 程序 中 : 


#! python3 
# threadedDownloadXkcd.py - Downloads XKCD comics using multiple threads. 


import requests, 0s, bs4, threading 
@ os.makedirs('xkcd', exist ok=True) # Store comics in ./xkcd 


四 def downloadXkcd(startComic, endComic): 
© for urlNumber in range(startComic, endComic): 
# Download the page. 
print('Downloading page http:// 一 一 < -1/%Ss..。 % (urlNumber)) 
@ res = requests.get('http:// -1 -=™» ./%Ss' % (urlNumber)) 
res.raise for status() 


© soup = bs4.BeautifulSoup(res.text, 'html.parser’') 


# Fird the URL of the comic image. 
@ comicElem = soup.select('#comic img') 
if comicElem == []: 
print('Could not find comic image.') 
else: 
@ comicUrl = comicElem[0] .get('src') 
# Download the image. 
print('Downloading image %s...' % (comicUrl)) 
@ res = requests.get('https:'+comicUrl) 
res.raise for status() 


# Save the image to ./xkcd. 
imageFile = open(os.path.join('xkcd', os.path.basename (comicUrl1)), "wb ) 
for chunk in res,.iter content(100000 ) : 
imageFile.write(chunk) 
imageFile.closel() 
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# TODO: Create and start the Thread obijects. 
# TODO: Wait for all threads to end. 


导入 需要 的 模块 后 , @ 行 创建 了 一 个 目录 来 保存 漫画 , 然后 开始 定义 downloadXkcd()@。 
循环 过 有 历 指 定 范 围 中 的 所 有 编号 旧 ， 并 下 载 每 个 页 面 @。 用 Beautiful Soup 查看 每 一 页 的 
HITMLB 以 找到 漫画 图 像 @。 如 果 页 面 上 没有 当前 漫画 图 像 ， 就 输出 一 条 消息 ;否则 ， 取 得 图 
片 的 URLG@， 并 下 载 图 像 @。 最 后 ， 将 图 像 保存 到 我 们 创建 的 目录 中 。 


第 2 步 : 创建 并 局 动 线程 


既然 已 经 定义 了 downloadXkcd (), 我 们 将 创建 多 个 线程 , 每 个 线程 调用 downloadXkcd()， 
以 从 XKCD 网 站 下 载 不 同类 型 的 漫画 。 将 下 面 的 代码 添加 到 multidownloadXkcd.py 中 ， 放 在 
downloadXkcd() 函数 定义 之 后 : 


# 1 python3 
# threadedDownloadXkcd.py - Downloads XKCD comics using multiple threads. 


--SNip-- 


# Create and start the Thread objects. 


downloadThreads = [] # a list of all the Thread objects 
for i in range(0, 140, 10): # loops 14 times, creates 14 threads 
start = i 
end = i+9 


if start == 0: 
start = 1 # There is no comic 0, so set it to 1. 
downloadThread = threading.Thread(target=downloadXkcd, args=(start, end)) 
downloadThreads .append(downloadThread ) 
downloadThread .start() 


首先 ， 我 们 创建 了 一 个 空 列 表 downloadThreads ， 该 列表 帮助 我 们 追踪 创建 的 多 
个 Thread 对 象 。 然 后 开始 for 循环 。 在 每 次 循环 中 ， 我 们 利用 threading. Thread() 创 
建 一 个 Thread 对 象 ， 将 它 追 加 到 列表 中 ， 并 调用 start() ， 以 开始 在 新 线程 中 运行 
downloadXkcd( ) 。 因 为 for 循环 将 变量 i 设置 为 从 0 到 140， 步 长 为 10， 所 以 守 在 第 一 次 
达 代 时 为 0, 第 二 次 碗 代 时 为 10, 第 三 次 迭代 时 为 20, 以 此 类 推 。 因 为 我 们 将 args=(start,end) 
传递 给 threading.Thread()， 所 以 在 第 一 次 迭代 时 ， 传 递 给 downloadXkcd( ) 的 两 个 参数 
将 是 1 和 9， 第 二 次 迭代 是 10 和 19， 第 三 次 迭代 是 20 和 29， 以 此 类 推 。 

随 独 调用 Thread 对 象 的 start() 方 法 ， 新 的 线程 开始 运行 downloadXkcd() 中 的 代码 ， 
主线 程 将 继续 for 循环 的 下 一 次 迭代 ， 并 创造 下 一 个 线程 。 


17 
第 3 步 : 等 待 所 有 线程 结束 | 


主线 程 继 续 正 常 执行 ， 同 时 我 们 创建 的 其 他 线程 来 下 载 漫 画 。 但 是 假定 主线 程 中 有 一 些 代 
码 ， 你 希望 所 有 下 载 线程 完成 后 再 执行 。 调 用 Thread 对 象 的 join( ) 方 法 将 阻塞 ， 直 到 该 线 
程 完 成 。 利 用 一 个 for 循环 ， 来 遍历 downloadThreads 列表 中 的 所 有 Thread 对 象 ， 主 线程 
可 以 调用 其 他 每 个 线程 的 join() 方 法 。 将 以 下 代码 添加 到 程序 的 末尾 : 
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#! python3 
# threadedDownioadXkcd.py - Downloads XKCD comics using multiple threads . 
--SNip-- 


# Wait for all threads to end. 

for downloadThread in downloadThreads: 
downloadThread .join() 

print('Done.') 


所 有 的 join() 调 用 返回 后 ，'Done. ' 字 符 串 才 会 输出 ， 如 果 一 个 Thread 对 象 已 经 完成 ， 
那么 调用 它 的 join() 方 法 时 ， 该 方法 就 会 立即 返回 。 如 果 想 用 只 在 下 载 完 所 有 漫画 后 才能 运 
行 的 代码 来 扩展 这 个 程序 ， 那 么 可 以 用 新 的 代码 替换 print('Done.')。 


17.8 从 Python 启动 其 他 程序 


利用 内 置 的 subprocess 模块 中 的 Popen() 函 数 ，Python 程序 可 以 启动 计算 机 中 的 其 他 
程序 (Popen( ) 函 数 名 中 的 P 表示 process， 即 进程 )。 如 果 你 打开 了 一 个 应 用 程序 的 多 个 实例 ， 
那么 每 个 实例 都 是 同一 个 程序 的 不 同 进程 。 例 如 ， 如 果 你 同时 打开 了 Web 浏览 器 的 多 个 窗口 ， 
那么 每 个 窗口 都 是 Web 浏览 器 程序 的 不 同 进程 。 图 17-1 所 示 是 同时 打开 多 个 计算 器 进程 的 例子 。 


图 17-1 相同 的 计算 器 程序 ，6 个 正在 运行 的 进程 


每 个 进程 可 以 有 多 个 线程 。 不 像 线程 ， 进 程 无 法 直接 读 写 另 一 个 进程 的 变量 。 如 果 你 认为 
多 线程 程序 是 多 个 手指 在 追踪 源 代 码 ， 那 么 同一 个 程序 打开 多 个 进程 就 像 有 一 个 朋友 拿 看 程序 
源 代码 的 独立 副本 。 你 们 都 独立 地 执行 相同 的 程序 。 

如 果 想 在 Pvthon 脚本 中 启动 一 个 外 部 程序 , 就 将 该 程序 的 文件 名 传递 给 subprocess .Popen() 
(在 Windows 操作 系统 中 ， 右 键 单 击 该 应 用 程序 的 开始 菜单 ， 然 后 选择 “属性 ”， 碍 看 应 用 程序 
的 文件 名 。 在 macOS 上 ， 按 住 Ctrl 键 单 击 该 应 用 程序 并 选择 Show Package Contents， 找 到 可 执 
行文 件 的 路 径 )。Popen( ) 函数 随后 将 立即 返回 。 请 记 住 ， 启 动 的 程序 和 你 的 Python 程序 不 在 
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同一 线程 中 运行 。 
在 Windows 操作 系统 上 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> import subprocess 
>>> subprocess.Popen('C:\\Windows\\System32\\calc.exe') 
<subprocess.Popen object at Ox0000000003055A58> 


在 Ubuntu Linux 操作 系统 上 ， 可 以 输入 以 下 代码 : 


>>> import subprocess 
>>> subprocess.Popen('/snap/bin/gnome-calculator') 
<subprocess.Popen object at Ox7f2bcf93b20> 


在 macOS 上 ， 过 程 稍 有 不 同 。 参 见 17.8.5 小 节 “ 用 默认 的 应 用 程序 打开 文件 ” 

返回 值 是 一 个 Popen 对 象 ， 它 有 两 个 有 用 的 方法 : polL1() 和 wait () 。 

可 以 认为 p011() 方 法 是 反复 问 你 的 司机 “我 们 还 没 到 吗 ? ”， 直 到 你 们 到 达 为 止 。 如 果 这 
个 进程 在 p011( ) 调 用 时 仍 在 运行 ， 那 么 po11( ) 方 法 就 返回 None。 如 果 该 程序 已 经 终止 ， 那 
么 它 会 返回 该 进程 的 整数 “退出 代码 ”。 退 出 代码 用 于 说 明 进 程 是 无 错 终 止 ( 退 出 代码 为 0)， 
还 是 一 个 错误 导致 终止 (退出 代码 非 0， 通 常 为 1， 但 可 能 根据 程序 而 不 同 ).。 

wait () 方 法 就 像 是 等 着 你 的 司机 到 达 你 们 的 目的 地 。wait () 方 法 将 阻塞 ， 直 到 启动 的 进 
程 终止 。 如 果 你 希望 你 的 程序 暂停 直到 用 户 完 成 其 他 程序 ， 这 非常 有 用 。wait () 的 返回 值 是 进 
程 的 整数 “退出 代码 ”。 

在 Windows 操作 系统 上 ， 在 交互 环境 中 输入 以 下 代码 。 请 注意 ，wait ( ) 的 调用 将 阻塞 ， 
直到 退出 启动 的 MS Paint 程序 : 


>>> import subprocess 
©@ >>> paintProc = subprocess.Popen('c:\\Windows\\System32\\mspaint.exe') 
@ >>> paintProc.poll() == None 

True 
© >>> paintProc.wait() # Doesn't return wntil MS Paint closes. 

0 

>>> paintProc.poll() 

0 


这 里 , 我 们 打开 了 MS Paint 进程 @。 在 它 仍 在 运行 时 , 我 们 检查 po11 ( ) 是 否 返 回 None@。 


它 应 该 返回 None， 因 为 该 进程 仍 在 运行 。 然 后 ， 我 们 关闭 MS Paint 程序 ， 并 对 已 终止 的 进程 
调用 wait() 卓 。wait() 和 poll1() 现 在 返回 0， 说明 该 进程 终止 且 无 错 。 


注意 : 与 mspaintexe 不 同 的 是 ， 如 果 你 在 Windows 10 操 作 系 统 上 使 用 subprocess. Popen() 运 行 
cajlc.exe， 你 会 发 现 即 使 计算 器 应 用 程序 仍 在 运行 ，Wait( ) 也 会 立即 返回 。 这 是 因为 calc.exe 


会 启动 计算 器 程序 ， 然 后 立即 关闭 自己 。Windows 操 作 系 统 的 计算 器 程序 是 一 个 “受信 任 的 
微软 商店 程序 ”， 它 的 细节 不 在 本 书 的 范围 之 内 。 你 只 要 知道 ,程序 可 以 以 许多 特定 于 应 用 程 
序 和 操作 系统 的 方式 运行 。 


17.8.1 回 Popen() 传 递 命 令 行 参数 
用 Popen( ) 创 建 进程 时 , 程序 可 以 向 进程 传递 命令 行 参数 。 要 做 到 这 一 点 , 需要 向 Popen() 
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传递 一 个 列表 作为 唯一 的 参数 。 该 列表 中 的 第 一 个 字符 串 是 要 启动 的 程序 的 可 执行 文件 名 ， 所 
有 后 续 的 字符 串 将 是 在 该 程序 启动 时 ， 传 递 给 该 程序 的 命令 行 参数 。 实 际 上 ， 这 个 列表 将 作为 
被 启动 程序 的 sys .argyv 的 值 。 

大 多 数 具有 图 形 用 户 界 面 (GUI) 的 应 用 程序 ， 不 像 基 于 命令 行 的 程序 那样 尽 可 能 地 使 用 
命令 行 参数 。 但 大 多 数 GUI 应 用 程序 将 接收 一 个 参数 ， 表 示 应 用 程序 启动 时 立即 打开 的 文件 。 
例如 ， 如果 你 使 月 的 是 Windows 操作 系统 ,那么 创建 一 个 简单 的 文本 文件 CNUsers\Al\hello.txt， 
然后 在 交互 式 环境 中 输入 以 下 代码 : 


>>> subprocess.Popen(['C:\\Windows\\notepad.exe', 'C:\\Users\Al\\hello.txt']) 
<subprocess.Popen object at 0x00000000032DCEB8> 


这 不 仅 会 启动 记事 本 应 用 程序 ， 也 会 让 它 立 即 打 开 C:\Users\Al\hello.txt。 
17.8.2 Task Scheduler、launchd 和 cron 


如 果 你 精通 计算 机 ， 那 么 可 能 知道 Windows 操作 系统 上 的 Task Scheduler，macOS 上 的 
launchd 或 Linux 操作 系统 上 的 cron 调度 程序 。 这 些 工具 文档 齐全 ， 而 且 可 靠 ， 它 们 都 允许 你 
安排 应 用 程序 在 特定 的 时 间 启 动 。 如果 想 更 多 地 了 解 它们 , 可 以 在 No Starch 出 版 社 官网 本 书 对 
应 页 面 找到 教程 的 链接 。 

利用 操作 系统 内 置 的 调度 程序 ， 你 不 必 自 己 写 时 钟 检查 代码 来 安排 你 的 程序 。 但 是 ， 如 果 
只 需要 程序 稍 作 停 顿 ， 那 就 用 time.sleep() 函 数 。 或 者 不 使 用 操作 系统 的 调度 程序 ， 代 码 可 
以 循环 直到 特定 的 日 期 和 时 间 ， 每 次 循环 时 调用 time.sleep(1)。 


17.8.3 用 Python 打开 网 站 


webbrowser .open() 函 数 可 以 从 程序 启动 Web 浏览 器 ， 并 打开 指定 的 网 站 ， 而 不 是 用 
subprocess.Popen() 打 开 浏 览 器 应 用 程序 。 详 细 内 容 参见 第 12 章 的 “项 目 :利用 webbrowser 
模块 的 mapILpy” 一 节 。 


17.8.4 运行 其 他 Python 脚本 


可 以 在 Python 中 启动 男 一 个 Python 脚本 , 就 像 任何 其 他 的 应 用 程序 一 样 。 只 需 癌 Popen() 
传 入 python.exe 可 执行 文件 , 并 将 想 运 行 的 .py 脚本 的 文件 名 作为 它 的 参数 即 可 局 动 脚本 。 例 如 ， 
下 面 代码 将 运行 第 1 章 的 hello.py 脚本 : 


>>> subprocess.Popen(['C:\\Users\\<YOUR USERNAME>\\AppData\\Local\\Programs\\ Python\\ 
Python38\\python.exe', 'hello.py']) 
<subprocess.Popen object at Ox000000000331CF28> 


向 Popen ) 传 入 一 个 列表 ， 其 中 包含 Python 可 执行 文件 的 路 径 字 符 串 ， 以 及 脚本 文件 名 
的 字符 串 。 如 果 要 启动 的 脚本 需要 命令 行 参数 ， 那 就 将 它们 添加 到 列表 中 ， 并 放 在 脚本 文件 名 
后 面 。 在 Windows 操作 系统 上 ，Python 可 执行 文件 的 路 径 是 CNUsers\v<YOUR USERNAME>\ 
AppData\Local\Programs\Python\Python38\python.exe。 在 macOS 上 ,路径 是 /Library/Frameworks/ 


17.9 项 目 : 简单 的 倒计时 程序 327 


Python. framework/Versions/3.8/bin/python3。 在 Linux 操作 系统 上 ， 路 径 是 /usr/bin/python3.8。 
不 同 于 将 Python 程序 导入 为 一 个 模块 ， 如 果 Python 程序 启动 了 另 一 个 Python 程序 ， 那 么 
两 者 将 在 独立 的 进程 中 运行 ， 不 能 分 享 彼此 的 变量 。 


17.8.5 ”用 默认 的 应 用 程序 打开 文件 


双击 计算 机 上 的 .txt 文件 ， 会 自动 启动 与 .txt 文件 扩展 名 关联 的 应 用 程序 。 计 算 机 上 已 经 设 
置 了 一 些 这 样 的 文件 扩展 名 关联 。 利 用 Popen() ，Python 也 可 以 用 这 种 方式 打开 文件 。 

每 个 操作 系统 都 有 一 个 程序 ， 其 行为 等 价 于 双击 文档 文件 来 打开 它 。 在 Windows 操作 系统 
上 , 这 是 start 程序 。 在 macOS 上 ,这 是 open 程序 。 在 Ubuntu Linux 操作 系统 上 ,这 是 see 
程序 。 在 交互 式 环 境 中 输入 以 下 代码 ， 根 据 操作 系统 ， 向 Popen() 传 入 'start'、'open' 或 
See ': 

>>> file0bj = open('hello.txt'，'W') 

>>> file0bj.write('Hello，worldl! ') 

人 file0bj .close() 


>>> import subprocess 
>>> subprocess.Popen(['start', ‘hello.txt'], shell=True) 


这 里 ， 我 们 将 Hello，world! 写 入 一 个 新 的 hello.txt 文件 。 然 后 调用 Popen( ) ， 以 传 入 
一 个 列表 ， 其 中 包含 程序 名 称 〈 在 这 个 例子 中 ， 是 Windows 操作 系统 上 的 'start' ) 以 及 文件 
名 。 我 们 也 传 入 了 shell=True 关键 字 参 数 ， 这 只 在 Windows 操作 系统 上 需要 。 操作 系统 知道 
所 有 的 文件 关联 ， 能 和 弄 清楚 应 该 启动 哪个 程序 ， 例 如 Notepad.exe， 用 来 处 理 hello.txt 文件 。 

在 macOS 上 ，open 程序 用 于 打开 文档 文件 和 程序 。 如 果 你 使 用 macOS， 在 交互 式 环境 中 
输入 以 下 代码 : 


>>> Subprocess .Popen(['open'， '/Applications/Calculator.app/']) 
<subprocess.Popen object at Ox10202ff98> 


计算 器 应 用 程序 应 该 会 打开 。 
17.9 项目: 简单 的 倒计时 程序 


就 像 很 难 找到 一 个 简单 的 秒表 应 用 程序 一 样 ， 也 很 难 找到 一 个 简单 的 倒计时 程序 。 让 我 们 
来 写 一 个 倒计时 程序 ， 在 倒计时 结束 时 报警 。 

总 的 来 说 ， 程 序 要 做 到 以 下 几 点 。 

1. 从 60 倒数 。 

2. 倒数 至 0 时 播放 声音 文件 (alarm.wav )。 

这 意味 着 代码 需要 做 到 以 下 几 点 。 

1. 在 显示 倒计时 的 每 个 数字 之 后 ， 调 用 time.sleep() 暂 停 1 秒 。 

2. 调用 subprocess.Popen()， 用 默认 的 应 用 程序 播放 声音 文件 。 

打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 countdown.py。 
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第 1 步 : 倒计时 
这 个 程序 需要 使 用 time 模块 的 time.sleep() 函 数 、subprocess 模块 的 subprocess. 
Popen( ) 函数 。 输 入 以 下 代码 并 保存 为 countdown.py: 


#! python3 
# countdown.py - A simple countdown script. 


import time, subprocess 


0 timeLeft = 60 
while timeLeft > 0: 
四 print(timeLeft, end="'"') 
© time.sleep(1) 
9 timeLeft = timeLeft - 1 


# TODO: At the end of the countdown, play a sound file. 


导入 time 和 subprocess 后 ， 创 建 变量 timeLeft， 也 保存 倒计时 剩 下 的 秒 数 @。 它 从 
60 开始 ， 或 者 可 以 根据 需要 更 改 这 里 的 值 ， 甚 至 通过 命令 行 参 数 设 置 它 。 

在 while 循环 中 ， 显 示 剩 余 次 数 @， 暂 停 1 秒 @， 再 减少 timeLeft 变量 的 值 @， 然 后 循 
环 再 次 开始 。 只 要 timeLeft 大 于 0， 循 环 就 继续 。 在 这 之 后 ， 倒 计时 就 结束 了 。 


第 2 步 : 播放 声音 文件 


虽然 有 第 三 方 模块 用 于 播放 各 种 声音 文件 ， 但 快速 而 简单 的 方法 是 局 动用 户 使 用 的 任何 播 
放声 音 文件 的 应 用 程序 。 操 作 系 统 通 过 .wav 文件 扩展 名 ， 会 弄 清楚 应 该 启动 哪个 应 用 程序 来 播 
放 该 文件 。 这 个 .wav 文件 很 容易 转换 成 其 他 声音 文件 格式 ， 如 .mp3 或 .ogg。 

可 以 使 用 计算 机 上 的 任何 声音 文件 在 倒计时 结束 时 播放 ， 也 可 以 从 异步 社区 本 书 对 应 页 面 下 
载 alarm.wav。 

在 程序 中 添加 以 下 代码 : 


#! python3 
# countdown.py - A Simple countdown Script. 


import time, Subprocess 
-~~-SNip-- 


# At the end of the countdown, play a sound file. 
subprocess.Popen(['start', 'alarm.wav'], shell=True) 


while 循环 结束 后 ，alarm.wav〔 或 你 选择 的 声音 文件 ) 将 播放 ， 通 知 用 户 倒计时 结束 。 在 
Windows 操作 系统 上 ， 要 确保 传 入 Popen() 的 列表 中 包含 'start'， 并 传 入 关键 字 参 数 
shell=True。 在 macOS 上 , 传 入 'open'， 而 不 是 'start'， 并 去 掉 shell=True。 

除了 播放 声音 文件 ， 你 还 可 以 在 一 个 文本 文件 中 保存 一 条 消息 ， 例 如 Break time is over!。 
然后 在 倒计时 结束 时 用 Popen( ) 打 开 它 。 这 实际 上 创建 了 一 个 带 消 乱 的 弹出 窗口 。 或 者 你 可 以 
在 倒计时 结束 时 ， 用 webbrowser .open() 了 久 数 打开 特定 网 站 。 不 像 在 网 上 找到 的 一 些 免 费 倒 
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计时 应 用 程序 ， 你 自己 的 倒计时 程序 的 警报 可 以 是 任何 你 希望 的 方式 。 
第 3 步 : 类 似 程序 的 想法 


倒计时 是 简单 的 延 时 ， 然 后 继续 执行 程序 。 这 也 可 以 用 于 其 他 应 用 程序 和 功能 ， 如 以 下 

程序 。 

口 利用 time.sleep() 给 用 户 一 个 机 会 按 Ctrl-C 快捷 键 来 取消 操作 , 例如 删除 文件 。 你 的 
程序 可 以 输出 “Press Ctrl-C to cancel”， 然 后 用 try 和 except 语句 处 理 所 有 
KeyboardInterrupt 异常 。 

口 对 于 长 期 的 倒计时 ， 可 以 用 timedelta 对 象 来 测量 直到 未 来 某 个 时 间 点 (生日 或 周年 
纪念 等 ) 的 天 、 时 、 分 和 秒 数 。 


17.10 小结 


对 于 许多 编程 语言 (包括 Python)，UNIX 纪元 (1970 年 1 月 1 日 午夜 0 点 ) 是 一 个 标准 
的 参考 时 间 。 虽 然 time .time() 函 数 模块 返回 一 个 UNIX 纪元 时 间 惟 (也 就 是 自 UNIX 纪元 
以 来 的 秒 数 的 浮 点 值 )， 但 datetime 模块 更 适合 执行 日 期 计算 、 格 式 化 和 解析 日 期 信息 的 字 
符 串 。 

time .sleep() 函数 将 阻塞 ( 即 不 返回 ) 若干 秒 。 它 可 以 用 于 在 程序 中 和 暂停。 但 如 果 想 安 
排 程序 在 特定 时 间 启 动 , No Starch 出 版 社 官网 本 书 对 应 页 面 上 的 指南 可 以 告诉 你 如 何 使 用 操作 
系统 已 经 提供 的 调度 程序 。 

threading 模块 用 于 创建 多 个 线程 ,如 果 需 要 下 载 多 个 文件 或 同时 执行 其 他 任务 , 这 
非常 有 用 。 但 是 要 确保 线程 只 读 写 局 部 变量 ， 否 则 可 能 会 遇 到 并 发 问题 。 

最 后 ，Python 程序 可 以 用 subprocess.Popen() 函 数 启动 其 他 应 用 程序 。 命 令 行 参 数 可 
以 传递 给 Popen( ) 调用 , 用 该 应 用 程序 打开 特定 的 文档 。 另 外 , 也 可 以 用 Popen( ) 启动 start、 
open 或 see 程序 ， 利 用 计算 机 的 文件 关联 ， 自 动 弄 清楚 用 来 打开 文件 的 应 用 程序 。 通 过 利用 
计算 机 上 的 其 他 应 用 程序 ，Python 程序 可 以 利用 它们 的 能 力 ， 满 足 你 的 自动 化 需求 。 


17.11 习题 


. 什么 是 UNIX 纪元 ? 

. 什么 函数 返回 自 UNIX 纪元 以 来 的 秒 数 ? 

.如 何 让 程序 刚好 暂停 5 秒 ? 

. round( ) 函数 返回 什么 ? 

. datetime 对 象 和 timedelta 对 象 之 间 的 区 别 是 什么 ? 

. 利用 datetime 模块 ， 弄 清楚 2019 年 1 月 7 日 是 星期 几 。 

. 假设 你 有 一 个 函数 名 为 spam( ) ， 如 何在 一 个 独立 的 线程 中 调用 该 函数 并 运行 其 中 的 


“3 md On WW A 3 NY ws 


代码 ? 
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8. 为 了 避免 多 线程 的 并 发 问题 ， 应 该 怎样 做 ? 


17.12 ”实践 项 目 
作为 实践 ， 缤 程 完成 下 列 任务 。 


17.12.1 美化 的 秒表 


扩展 本 章 的 秒表 项 目 ， 让 它 利用 rjust() 和 1just() 字 符 串 方法 来 “美化 ”输出 。( 这 些 
方法 在 第 6 章 中 介绍 过 。) 输出 结果 不 是 像 这 样 : 

Lap #1: 3.56 【3.56) 

Lap #2: 8.63 (5.07) 


Lap #3: 17.68 (9.05) 
Lap #4: 19.11 (1.43) 


而 是 像 这 样 : 


Lap # 1: 3.56 ( 3.56) 
Lap # 2: 8.63 ( 5.07) 
Lap # 3: 17.68 ( 9.05) 
Lap # 4: 19.11 ( 1.43) 


请 注意 ， 对 于 lapNum、1apTime 和 totalTime 等 整 型 和 浮 点 型 变量 ， 你 需要 字符 串 版 
以 便 对 它们 调用 字符 串 方法 。 

接 下 来 ， 利 用 第 6 章 中 介绍 的 pyperclip 模块 ， 将 文本 输出 复制 到 剪贴 板 ， 以 便 用 户 可 
以 将 输出 快速 粘贴 到 一 个 文本 文件 或 电子 邮件 中 。 


17.12.2 计划 的 Web 漫画 下 载 


编写 一 个 程序 来 检查 几 个 Web 漫画 的 网 站 ， 如 果 自 该 程序 上 次 访问 以 来 漫画 有 更 新 ， 就 自 
动 下 载 。 操 作 系统 的 调度 程序 (Windows 操作 系统 上 的 Tasks Scheduler，macOS 上 的 launchd， 
以 及 Linux 操作 系统 上 的 cron ) 可 以 每 天 运行 你 的 Python 程序 一 次 。Python 程序 本 身 可 以 下 载 
漫画 ， 然 后 将 它 复制 到 桌面 上 ， 这 样 很 容易 找到 。 你 就 不 必 目 己 查 看 网 站 是 耕 有 更 新 了 【在 
No Starch 出 版 社 宫 网 本 书 对 应 页 面 上 有 一 份 Web 漫画 的 列表 )。 


- 


本 


必 克 电子 邮件 和 


短信 


检查 和 回答 电子 邮件 会 占用 人 们 大 量 的 时 间 。 当 然 , 你 不 能 实现 只 编写 
一 个 程序 来 处 理 所 有 的 电子 邮件 ， 因 为 每 个 消息 都 需要 有 回复 。 但 是 ， 一 
旦 知道 怎么 编写 收发 电子 邮件 的 程序 ， 就 可 以 自动 化 大 量 与 电子 邮件 相关 
的 任务 。 

例如 ， 也许 你 有 一 个 电子 表格 ,其 中 包含 许多 客户 记录 ， 你 希望 根据 他 
们 的 年 龄 和 位 置信 息 ， 向 每 个 客户 发 送 不 同 格式 的 邮件 。 商 业 软 件 可 能 无 法 
做 到 这 一 点 。 好 在 ， 你 可 以 编写 自己 的 程序 来 发 送 这 些 电 子 邮 件 ， 节 省 大 量 
复制 和 粘贴 电子 邮件 的 时 间 。 

你 可 以 编写 程序 发 送 电 子 邮 件 和 短信 ， 也 能 远程 收 到 通知 。 如 果 要 自动 化 的 任务 需要 执行 几 小 
时 ， 你 一 定 不 希望 每 过 几 分 钟 就 回 到 计算 机 旁边 检查 程序 的 状态 。 设 计 好 程序 可 以 在 任务 完成 时 向 
手机 发 送 短 信 ， 让 你 在 离开 计算 机 时 ， 能 专注 于 做 更 重要 的 事情 。 

本 章 主要 介绍 ezgmail 模块 。 它 既是 一 个 从 Gmail 账户 发 送 和 读 取 邮件 的 简单 方法 ， 也 是 一 个 
使 用 标准 SMTP 和 IMAP 电子 邮件 协议 的 Python 模块 。 


警告 : 我 强烈 建议 你 为 所 有 发 送 或 接收 邮件 的 脚本 设置 一 个 单独 的 电子 邮件 账户 。 这 将 防止 程序 中 的 bug 
影响 你 的 个 人 电子 邮件 账户 〈《 例 如， 删除 电子 邮件 或 不 小 心 向 你 的 联系 人 发 送 垃圾 邮件 )。 最 好 
的 办 法 是 先 试 运行 ， 把 实际 发 送 或 删除 邮件 的 代码 注释 掉 ， 然 后 用 一 个 临时 的 print( ) 调 用 代 
替 。 这 样 你 就 可 以 在 真正 运行 之 前 测试 程序 。 


18.1 使 用 Gmail API 发 送 和 接收 电子 邮件 


由 于 额外 的 安全 和 反 垃 圾 邮件 措施 ， 因 此 通过 ezgmail 模块 控制 Gmail 账户 比 本 章 后 面 讨 
论 的 smtplib 和 imapclient 更 容易 。ezgmail 是 我 写 的 一 个 模块 ， 它 基于 官方 Gmail APL， 
并 提供 了 一 些 功能 ， 使 人 们 可 以 轻松 地 从 Python 中 使 用 Gmail。 你 可 以 在 GitHub 找到 关于 
ezgmail 的 完整 细节 。ezgmail 不 是 由 Google 制作 的 ， 也 不 附属 于 Google。 

要 安装 ezgmail， 在 Windows 操作 系统 上 运行 pip install--user--upgrade ezgmail 
(或 在 macOS 和 Linux 操作 系统 上 使 用 pip3)。- -upgrade 选项 将 确保 你 安装 最 新 版 本 的 软件 
包 ， 与 GmailAPI 这 样 一 个 不 断 变化 的 在 线 服务 交互 ， 这 是 非常 有 必要 的 。 
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18.1.1 局 用 Gmail API 


在 编写 代码 之 前 , 你 必须 先 注册 一 个 Gmail 电子 邮件 账户 。 然 后 , 进入 Gmail 一 API 一 Guides 
一 Python 一 Python QuickStart， 单 击 该 页 面 上 的 Enable the Gmail API 按钮 ， 并 填写 弹出 的 表格 。 

填写 完 表格 后 ， 页 面 上 会 显示 证 书 .json 文件 的 链接 ， 你 需要 下 载 并 将 它 放 在 与 .py 文件 相 
同 的 文件 夹 中 。credentials.json 文件 中 包含 了 客户 端 ID 和 客户 端 密 码 信息 ， 这 些 信 息 应 该 和 你 
的 Gmail 口令 一 样 ， 不 要 与 其 他 人 分 享 。 

然后 ， 在 交互 式 环境 中 ， 输 入 以 下 代码 : 


>>> Import ezgmail, os 
>>> os.chdir(r'C:\path\to\credentials json file') 
>>> ezgmail.init() 


确保 将 当前 的 工作 目录 设置 为 credentials.json 所 在 的 文件 夹 ， 并 且 连 接 到 因特网 。 
ezgmail.init() 函 数 将 打开 你 的 浏览 器 ， 并 进入 一 个 Google 登录 页 面 。 

输入 你 的 Gmail 地 址 和 口令 ， 页 面 可 能 会 弹出 警告 “This app isn’t verified”( 此 应 用 未 验证 )， 
但 这 没有 问题 。 单 击 Advanced 按钮 ， 然 后 转 到 Go to Quickstart (unsafe)。( 如 果 你 为 别人 编 与 
Python 脚本 ， 并 且 不 希望 这 个 警告 让 他 们 看 见 ， 你 需要 了 解 Google 的 App 验证 过 程 ， 这 不 在 
本 书 的 范围 之 内 。) 当下 一 个 页 面 提 示 你 “QuickStart wants to access your Google Account” 
(QuickStart 想 要 访问 你 的 Google 账户 ) 时 ， 单 击 Allow 按钮 ， 然 后 关闭 浏览 器 。 

这 会 生成 一 个 token.json 文件 ， 它 让 你 的 Python 脚本 访问 你 输入 的 Gmail 账户 。 浏 览 器 只 
有 在 找 不 到 已 有 的 token.json 文件 时 才 会 打开 登录 页 面 。 有 了 credentials.json 和 token.json， 你 
的 Python 脚本 就 可 以 从 你 的 Gmail 账户 发 送 和 读 取 电 子 邮 件 , 而 不 需要 你 在 源 代 码 中 包含 Gmail 
口令 。 


18.1.2 ”从 Gmail 账户 发 送 邮件 
一 旦 你 有 了 token.json 文件 ，ezgmail 模块 应 该 可 以 通过 一 个 函数 调用 来 发 送 邮件 : 


>>> import ezgmail 
>>> ezgmail.send('recipientGexample.com'，'Subject line'， "Body of the email') 


如 果 想 将 文件 附加 到 你 的 电子 邮件 中 ， 可 以 为 send ( ) 函数 提供 一 个 额外 的 列表 参数 : 


>>> ezgmail.send('recipient@example.com'’, 'Subject line', 'Body of the email', 
['attachment1.jpg', 'attachment2 .mp3"']) 


请 注意 ， 作 为 安全 和 反 垃 圾 邮件 功能 的 一 部 分 ，Gmail 可 能 不 会 发 送 文 本 完全 相同 的 重复 
邮件 《因为 这 些 很 可 能 是 垃圾 邮件 )， 或 包含 .exe 或 .zip 文件 附件 的 邮件 (因为 它们 很 可 能 是 
病毒 )。 

你 也 可 以 提供 可 选 的 关键 字 参 数 cc 和 bcc 来 抄 送 和 密 件 抄 送 : 

>>> import ezgmail 


>>> ezgmail.send('recipient@example.com', 'Subject line', 'Body of the email', 
cc='friend@example.com', bcc='otherfriend@example.com,someoneelse@example.com') 
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如 果 你 需要 记 住 token.json 文件 是 针对 哪个 Gmail 地 址 ， 你 可 以 检查 ezgmail.EMAIL 
ADDRESS。 注意, 这 个 变量 只 有 在 ezgmail.init() 或 其 他 ezgmail 函数 被 调用 后 才 会 被 填充 ; 


>>> import ezgmail 

>>> ezgmail.init() 

>>> ezgmail.EMAIL ADDRESS 
'example@gmail.com' 


请 确保 一 样 对 待 token.json 文件 和 你 的 口令 。 如 果 其 他 人 获得 这 个 文件 ， 他 们 就 可 以 访问 
你 的 Gmail 账户 〈 尽 管 他 们 无 法 更 改 你 的 Gmail 口令 )。 要 撤销 之 前 发 出 的 token.json 文件 ， 请 
访问 Google 账号 的 安全 性 页 面 ， 并 撤销 对 QuickStart 应 用 程序 的 访问 。 你 需要 运行 
ezgmail.init() 并 再 次 进行 登录 ， 以 获得 一 个 新 的 token.json 文件 。 


18.1.3 从 Gmail 账户 读 取 邮件 


Gmail 将 相互 回复 的 邮件 组 织 成 对 话 主线 。 当 你 在 网 页 浏览 器 或 通过 应 用 程序 登录 Gmail 
时 ， 你 真正 看 到 的 是 对 话 主线 ， 而 不 是 单个 邮件 〈 即 使 主线 中 只 有 一 封 邮件 )。 

ezgmail 有 GmailThread 和 GmailMessage 对 象 ， 分 别 代表 对 话 主线 和 单个 邮件 。 一 个 
GmailThread 对 象 有 一 个 messages 属性 , 它 持 有 一 个 GmailMessage 对 象 的 列表 。unread () 
国 数 返回 一 个 GmailThread 对 象 的 列表 ， 这 个 列表 可 以 传递 给 ezgmail.summary()， 输 出 
该 列表 中 的 对 话 主线 的 摘要 : 


>>> import ezgmail 

>>> unreadThreads = ezgmail.unread() # List of GmailThread objects. 
>>> ezgmail.summary (unreadThreads) 

Al, Jon - Do you want to watch RoboCop this weekend? - Dec 09 

Jon - Thanks for stopping me from buying Bitcoin. - Dec 09 


Summary() 函数 可 以 方便 地 显示 对 话 主线 的 快速 摘要 ， 但 是 要 访问 特定 的 邮件 (和 邮件 的 
部 分 )， 你 需要 检查 GmailThread 对 象 的 messages 属性 。messages 属性 包含 了 一 个 
GmailMessage 对 象 的 列表 ， 这 些 对 象 有 subject (主题 )、body (正文 )、timestamp (时 
间 惟 )、sender (发 件 人 ) 和 recipient ( 收 件 人 ) 等 描述 邮件 的 属性 : 


>>> len(unreadThreads) 

2 

>>> Strf(unreadThreads[0]) 

"<GmailThread len=2 Snippet= Do you want to watch RoboCop this weekend?'>" 
>>> len(unreadThreads[0] .messages) 

2 

>>> str(unreadThreads[0] .messages[0]) 

"<GmailMessage from='Al Sweigart <al@inventwithpython.com>’' to='Jon Doe 
<example@gmail.com>' timestamp=datetime.datetime(2018, 12, 9, 13, 28,，48) 
subject='RoboCop' snippet='Do you want to watch RoboCop this weekend?'>" 
>>> unreadThreads[0] .messages[0].subject 

“RoboCcop， 

>>> UnreadThreads[0] .messages[0] .body 

"Do you want to watch RoboCop this weekend?\r\n’ 

>>> UnreadThreads[0] .messages[0].timestamp 
datetime.datetime(2018，12，9，13，28，48) 
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>>> UnreadThreads [0] .messages[0] .sender 
'Al Sweigart <aleinventwithpython.com>” 
>>> unreadThreads[0] .messages[0] .recipient 
'Jon Doe <example@gmail .com>' 


类 似 于 ezgmail.unread() 函 数 ，ezgmail.relative() 函 数 将 返回 Gmail 账户 中 最 近 
的 25 个 主线 。 你 可 以 传递 一 个 可 选 的 maxResults 关键 字 参 数 来 改变 这 个 限制 : 


>>> recentThreads = ezgmail.recent() 

>>> len(recentThreads) 

25 

>>> recentThreads = ezgmail.recent (maxResults=100) 
>>> len(recentThreads) 

46 


18.1.4 从 Gmail 账户 中 搜索 邮件 


除了 使 用 ezgmail.unread() 和 ezgmail.recent()， 你 还 可 以 通过 调用 ezgmail. 
search() 来 搜索 特定 的 邮件 ， 就 像 你 在 邮箱 的 搜索 框 中 查询 一 样 : 


>>> resultThreads = ezgmail.search('Robocop ') 

>>> len(resultThreads) 

1 

>>> ezgmail.summary(resultThreads) 

Al, Jon - Do you want to watch RoboCop this weekend? - Dec 09 


前 面 的 search( ) 调 用 得 到 的 结果 ， 应 该 与 在 搜索 框 中 输入 “RoboCop” 相 同 ， 如 图 18-1 
所 示 。 


Q RoboCop 


$ Seorch the web for ‘RoboCop’ 
人 


DD Primary 


图 18-1 在 Gmail 网 站 上 搜索 “RoboCop” 邮 件 


和 unread() 和 recent() 一 样 ，search( ) 函 数 也 会 返回 一 个 GmailThread 对 象 的 列 
表 。 你 也 可 以 将 任何 一 个 可 以 输入 搜索 框 中 的 特殊 搜索 操作 符 传 递 给 search() 函 数 ， 如 下 
面 这 些 。 

'1abel :UNREAD' 用 于 未 读 邮件 。 

'from:al@inventwithpython.com' 用 于 来 自 al@inventwithpython.com 的 邮件 。 

'subject:hello' 用 于 主题 中 包含 hello 的 邮件 。 

'has:attachment' 用 于 有 附件 的 邮件 。 

可 以 在 Google 的 支持 页 面 找到 完整 的 搜索 操作 符 列 表 。 
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18.1.5 从 Gmail 账户 下 载 附 件 


GmailMessage 对 象 有 一 个 attachments 属性 ， 它 是 一 个 邮件 附件 文件 名 的 列表 。 
可 以 将 这 些 名 称 中 的 任何 一 个 传递 给 Gmail1Message 对 象 的 download Attachment () 方 
法 来 下 载 文 件 。 也 可 以 用 downloadA11LAttachments () 方 法 一 次 下 载 所 有 文件 。 默 认 情 况 
下 ，ezgmail 会 将 附件 保存 到 当前 的 工作 目录 中 ， 但 是 你 也 可 以 给 downloadAttachment() 
和 downloadAllAttachments() 传 递 一 个 额外 的 downloadFolder 关键 字 参 数 。 例 如 : 


>>> import ezgmail 

>>> threads = ezgmail.search('vacation photos') 

>>> threads[0] .messages[0] .attachments 

['tulips.ijpg', "canal.jpg'，“'bicycles.jpg'] 

>>> threads[0] .messages[0] .downloadAttachment( 'tulips.jpg') 

>>> threads[0] .messages[0] .downloadAllAttachments(downloadFolder='vacat ion2019°) 
['tulips.ijpg', 'canal.jpg', 'bicycles.jpg'] 


如 果 一 个 文件 与 附件 的 文件 名 相同 ， 下 载 的 附件 会 自动 覆盖 。 


18.2 SMTP 


正如 HTTP 是 计算 机 用 来 通过 因特网 发 送 网 页 的 协议 ,“ 简 单 邮件 传输 协议 ”(SMTP) 是 
用 于 友 送 电子 邮件 的 协议 。SMTP 规定 电子 邮件 应 该 如 何 格式 化 、 加 密 、 在 邮件 服务 器 之 间 传 
递 ， 以 及 在 你 单 击发 送 后 ， 计 算 机 要 处 理 的 所 有 其 他 细节 。 但 是 ， 你 并 不 需要 知道 这 些 技术 细 
节 ， 因 为 Python 的 smtplib 模块 将 它们 简化 成 几 个 函数 。 

SMTP 只 负责 向 别人 发 送 电子 邮件 。 另 一 个 协议 名 为 IMAP， 负 责 取 回 发 送 给 你 的 电子 邮 
件 ， 在 18.4 节 “IMAP” 中 介绍 。 

除了 SMTP 和 IMAP 之 外 , 现在 大 多 数 基 于 Web 的 电子 邮件 提供 商 有 其 他 的 安全 措施 ， 以 
防止 垃圾 邮件 、 网 络 钓鱼 和 其 他 恶意 电子 邮件 的 使 用 。 这 些 措施 可 以 防止 Python 脚本 通过 
smtplib 和 imapclient 模块 登录 到 电子 邮件 账户 。 然 而 ， 这 些 服务 许多 有 API 和 特定 的 Python 
模块 ， 人 允许 脚 本 访问 它们 。 本 章 介 绍 了 Gmail 的 模块 。 对 于 其 他 的 模块 ， 你 需要 查阅 它们 的 在 
线 文 档 。 


18.3 ”处 理 电 子 邮件 


你 可 能 对 发 送 电子 邮件 很 熟悉 ， 通过 Outlook、Thunderbird 或 茶 个 网 站 〈 如 Gmail 或 雅虎 
邮箱 ) 来 发 送 。 不 笠 的 是 ，Python 没有 像 这 些 服务 一 样 提供 一 个 漂亮 的 图 形 用 户 界面 。 作 为 替代 ， 
你 可 以 调用 函数 来 执行 SMTP 的 每 个 重要 步骤 ， 就 像 下 面 的 交互 式 环境 的 例子 : 
注意 : 不 要 在 交互 式 环境 中 输入 这 个 例子 ， 它 不 会 工作 ， 因 为 smtp.example.com、bob@example.com、 


MY_SECRET_PASSWORD 和 alice@example.com 只 是 占 位 符 。 这 段 代码 仅仅 概述 了 Python 发 送 电 
子 邮 件 的 过 程 。 
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>>> import smtplib 

>>> smtpObj = smtplib.SMTP('smtp.example.com', 587) 

>>> smtpObj.ehlo() 

(250, b'mx.example.com at your service, [216.172.148.131]\nSIZE 35882577\ 
nN8BITMIME\NnSTARTTLS\nENHANCEDSTATUSCODES\nCHUNKING" ) 

>>> Smtp0bj .starttls() 

(220, b'2.0.0 Ready to start TLS') 

>>> smtp0bj.login('bob@example.com', 'MY_SECRET_PASSWORD') 

(235, b'2.7.0 Accepted ' ) 

>>> smtp0bj.sendmail('bob@example.com','alice@example.com','Subject:So 
long.\nDear Alice, so long and thanks for all the fish. Sincerely, Bob') 
{} 

>>> smtpObj.quit() 

(221, b'2.0.0 closing connection ko10sm23097611pbd.52 - gsmtp') 


在 下 面 的 几 小 节 中 , 我 们 将 探讨 每 一 个 步骤 , 用 你 的 信息 替换 占 位 符 , 连接 并 登录 到 SMTP 
服务 器 ， 发 送 电 子 邮 件 ， 并 从 服务 器 断 开 连 接 。 


18.3.1 连接 到 SMTP 服务 器 


如 果 你 曾 设置 过 Thunderbird、Outlook 或 其 他 程序 连接 到 你 的 电子 邮件 账户 ， 你 可 能 
熟悉 配置 SMTP 服务 器 和 端口 。 这 些 设 置 因 电子 邮件 提供 商 的 不 同 而 不 同 ， 但 在 网 上 搜索 
“< 你 的 提供 商 > SMTP 设置 >， 应 该 能 找到 相应 的 服务 器 和 端口 。 

SMTP 服务 器 的 域名 通常 是 电子 邮件 提供 商 的 域名 前 面 加 上 SMTP 。 例 如 ，Gmail 
的 SMTP 服务 器 是 smtp.gmail.com。 表 18-1 列 出 了 一 些 常 见 的 电子 邮件 提供 商 及 其 SMTP 服务 
器 〈 端 口 是 一 个 整数 值 ， 几 乎 总 是 587， 该 端口 由 命令 加 密 标准 TLS 使 用 )。 


表 18-1 电子 邮件 提供 商 及 其 SMTP 服务 器 


提供 商 SMTP 服务 器 域名 
Gmail* smtp.gmail.com 
Outlook/Hotmail smtp-mail.outlook.com 
Yahoo Mail* smtp.mail.yahoo.com 
AT&T smpt.mail.att.net (端口 465 ) 
Comcast smtp.comcast.net 
Verizon smtp.verizon.net ( 病 口 465 ) 


困难 。 

得 到 电子 邮件 提供 商 的 域名 和 端口 信息 后 ， 调 用 smtplib.SMTP() 创 建 一 个 SMTP 对 象 ， 
并 传 入 域名 作为 字符 串 参数 ， 传 入 端口 作为 整数 参数 。SMTP 对 象 表 示 与 SMTP 邮件 服务 器 的 连 
接 ， 它 有 一 些 发 送 电子 邮件 的 方法 。 例 如 ， 下 面 的 调用 创建 了 一 个 SMTP 对 象 ， 并 连接 到 一 个 
想象 的 电子 邮件 服务 器 : 


>>> smtpObj = smtplib.SMTP('smtp. m3- ，，587) 
>>> type(smtp0bj ) 
<class 'smtplib.SMTP'> 
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输入 type (smtp0bj ) 表 明 ，smtp0bj 中 保存 了 一 个 SMTP 对 象 。 你 需要 这 个 SMTP 对 象 ， 
以 便 调 用 它 的 方法 登录 并 发 送 电子 邮件 。 如 果 smtplib .SMTP( ) 调 用 不 成 功 ， 你 的 SMTP 服务 
器 可 能 不 支持 TLS 端口 587。 在 这 种 情况 下 , 你 需要 利用 smtplib.SMTP_SSL() 和 465 端口 来 
创建 SMTP 对 象 。 


>>> Smtpobj = smtplib.SMTP SSL('smtp. -sa ，465) 


注意 : 如 果 没有 连接 到 因特网 , Python 将 抛 出 socket .gaierror: [Errno 11004] getaddrinfo 
failed 或 类 似 的 异常 。 


对 于 你 的 程序 ，TLS 和 SSL 之 间 的 区 别 并 不 重要 。 只 需要 知道 你 的 SMTP 服务 器 使 用 哪 种 
加 密 标 准 ， 这 样 就 知道 如 何 连接 它 。 在 接 下 来 的 所 有 交互 式 环境 示例 中 ，smtp0bj 变量 将 包含 
smtp1lib.SMTP() 或 smtplib.SMTP_ SSL() 函 数 返回 的 SMTP 对 象 。 


18.3.2 ”发送 SMTP 的 “Hello” 消 息 


得 到 SMTP 对 象 后 ， 调 用 它 的 ehlo( ) 方 法 以 向 SMTP 电子 邮件 服务 器 “打招呼 >。 这 种 问 
候 是 SMTP 中 的 第 一 步 , 对 于 建立 到 服务 器 的 连接 是 很 重要 的 。 你 不 需要 知道 这 些 协议 的 细节 ， 
只 要 确保 得 到 SMTP 对 象 后 , 第 一 件 事 就 是 调用 eh1o( ) 方 法 , 否则 以 后 的 方法 调用 会 导致 错误 。 
下 面 是 一 个 ehlo( ) 调 用 和 人 返回 值 的 例子 : 


>>> smtp0bj.ehlo() 
(250, DbD'MmX. zis at your service, [216.172.148.131]\nSIZE 35882577\ 
n8BITMIME\nSTARTTLS\VnENHANCEDSTATUSCODES\VnCHUNKING ' ) 


如 果 在 返回 的 元 组 中 ， 第 一 项 是 整数 250 (SMTP 中 “成 功 ” 的 代码 )， 那 么 问候 成 功 了 。 
18.3.3 ”开始 TLS 加密 


如 果 要 连接 到 SMTP 服务 器 的 587 端口 (即使 用 TLS 加 密 ), 那么 接 下 来 需要 调用 starttl1s() 
方法 。 这 是 为 连接 实现 加 密 必 需 的 步骤 。 如 果 要 连接 到 465 端口 (使 用 SSL)， 加 密 已 经 设置 好 
了 ， 你 应 该 跳 过 这 一 步 。 

下 面 是 startt1ls() 方 法 调用 的 例子 : 


>>> Smtp0bj .startt1ls() 
(220，b'2.0.0 Ready to start TLS ' ) 


starttls() 让 SMTP 连接 处 于 TLS 模式 。 返 回 值 220 告诉 你 ， 该 服务 器 已 准备 就 绪 。 


18.3.4 登录 到 SMTP 服务 器 8 | 
的 


到 SMTP 服务 器 的 加 密 连 接 建立 后 ， 可 以 调用 login() 方 法 ， 用 你 的 用 户 名 (通常 是 你 
电子 邮件 地 址 ) 和 电子 邮件 口令 登录 。 


>>> Smtp0Obj.login( "my_email address@example.com', 'MY SECRET PASSWORD ' ) 
(235, b'2.7.0 Accepted ' ) 
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传 入 电子 邮件 地 址 字符 串 作 为 第 一 个 参数 ， 传 入 口令 字符 串 作为 第 二 个 参数 。 返 回 值 235 
表示 认证 成 功 。 如 果 口 令 不 正确 , Python 会 抛 出 smtplib. SMTPAuthenticationError 异常 。 


警告 ， 将 口令 放 在 源 代码 中 要 当心 。 如 果 有 人 复制 了 你 的 程序 ， 他 们 就 能 访问 你 的 电子 邮件 账户 ! 调用 
input() ， 让 用 户 输入 口令 是 一 个 好 主意 。 每 次 运行 程序 时 输入 口令 可 能 不 方便 ， 但 这 种 方法 
不 会 在 未 加 密 的 文件 中 留 下 你 的 口令 ， 其 他 人 不 会 轻易 地 得 到 它 。 


18.3.5 “发送 电子 邮件 


登录 到 电子 邮件 提供 商 的 SMTP 服务 器 后 ， 可 以 调用 sendmail() 方 法 来 发 送 电子 邮件 。 
sendmail() 方 法 调用 看 起 来 像 这 样 : 


>>> smtpObj.sendmail('my email address@example.com', 'recipient@example.com', 
'Subject: So long.\nDear Alice, so long and thanks for all the fish. 
Sincerely, Bob’) 

{} 


sendmail() 方 法 需要 以 下 3 个 参数 。 

口 你 的 电子 邮件 地 址 字符 串 〈 电 子 邮 件 的 “from” 地 址 )。 

口 收 件 人 的 电子 邮件 地 址 字符 串 ， 或 多 个 收 件 人 的 字符 串 列表 (作为 “to” 地 址 )。 

口 电子 邮件 正文 字符 串 。 

电子 邮件 正文 字符 串 必 须 以 'Subject: \n' 开 头 ， 以 作为 电子 邮件 的 主题 行 。' \n' 换行 
符 将 主题 行 与 电子 邮件 的 正文 分 开 。 

sendmail() 的 返回 值 是 一 个 字典 。 对 于 电子 邮件 传送 失败 的 每 个 收 件 人 ， 该 字典 中 会 有 
一 个 键 - 值 对 。 空 的 字典 意味 着 对 已 所 有 收 件 人 成 功 发 送 电子 邮件 。 


18.3.6 从 SMTP 服务 器 断 开 
确保 在 完成 发 送 电 子 邮 件 时 ， 调 用 quit () 方 法 ， 这 让 程序 从 SMTP 服务 器 断 开 : 


>>> smtpObj .quit() 
(221, b'2.0.0 closing connection ko10sm23097611pbd.52 - gsmtp') 


返回 值 221 表示 会 话 结束 。 
要 复习 连接 和 登录 服务 器 、 发 送 电子 邮件 和 断 开 的 所 有 步骤 ， 请 参阅 18.3 节 “发 送 电 子 邮 件 ”。 


18.4 IMAP 


正如 SMTP 是 用 于 发 送 电子 邮件 的 协议 ， 因 特 网 消息 访问 协议 〈IMAP) 规定 了 如 何 与 电子 邮 
件 服 务 提 供 商 的 服务 器 通信 ， 取 回 发 送 到 你 的 电子 邮件 地 址 的 电子 邮件 。Python 和 帝 有 一 个 imap1lib 
模块 ， 但 实际 上 第 三 方 的 imapclient 模块 更 好 用 。 本 章 介 绍 了 如 何 使 用 imapc1lient。 

imapclient 模块 从 TMAP 服务 器 下 载 电子 邮件 ， 格 式 相 当 复 杂 。 你 很 可 能 希望 将 它们 从 
这 种 格式 转换 成 简单 的 字符 串 。pyzmail 模块 可 以 替 你 完成 解析 这 些 邮 件 的 辛 苗 工 作 。 

在 Windows 操作 系统 上 用 pip install --user -U imapclient==2.1.0 和 pip 
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install --user -U pyzmail36==1.0.4〔 或 在 macOS 和 Linux 操作 系统 上 用 pip3)， 从 
命令 行 窗口 安装 imapclient 和 pyzmail。 附 录 A 包含 了 安装 第 三 方 模块 的 步骤 。 


18.5 用 IMAP 获取 和 删除 电子 邮件 


在 Python 中 ,查找 和 获取 电子 邮件 是 一 个 多 步 又 的 过 程 ,需要 使 用 第 三 方 模块 jmapclient 
和 pyzmail。 作 为 概述 ， 这 里 有 一 个 完整 的 例子 ， 包 括 登 录 到 [IMAP 服务 器 、 搜 索 电子 邮件 、 
获取 它们 ， 然 后 从 中 提取 电子 邮件 的 文本 : 


>>> import imapclient 

>>> imap0bj = imapclient.IMAPClient('imap. Weser. -2', SSl1=True) 

>>> imapObj.login('my email address@example.com', 'MY_ SECRET_ PASSWORD') 
'my_email address@example.com Jane Doe authenticated (Success)' 

>>> imap0bj.select folder('INBOX’, readonly=True) 

>>> UIDs = imap0bj.search(['SINCE 05-Jul-2019']) 

>>> UIDs 
[40032，40033，40034，40035，40036，40037，40038，40039，40040，40041 ] 
>>> rawMessages = imapObj.fetch{({[40041], ['BODY[]', 'FLAGS']) 

>>> import pyzmail 

>>> message = pyzmail.PyzMessage.factory(rawMessages[40041][b'BODY[]']) 
>>> message.get subject() 

'Hello!' 

>>> message.get_addresses( from ') 

[('Edward Snowden ' ，“esnowdenensa.gov ' ) ] 

>>> message.get addresses('to') 

[('Jane Doe', 'jdoe@example.com’ )] 

>>> message.get addresses('cc') 

[] 

>>> message.get addresses('bcc') 

[] 

>>> message.text part != None 

True 

>>> message.text part.get payload().decode(message.text part.charset) 
'Follow the money.\r\n\r\n-Ed\r\n' 

>>> message.html part != None 

True 

>>> message.html part.get payload().decode(message.html part.charset) 
'<div dir="]tr"><div>So long, and thanks for all the fish!<br><br></div>- 
Al<br></div>\r\n’ 

>>> imapO0bij .logout() 


你 不 必 记 住 这 些 步骤 。 在 详细 介绍 每 一 步 之 后 ， 你 可 以 回来 看 这 个 概述 ， 加 强 记忆 。 
18.5.1 连接 到 IMAP 服务 器 


就 像 你 需要 一 个 SMTP 对 象 连接 到 SMTP 服务 器 并 发 送 电 子 邮 件 一 样 ， 你 也 需要 一 个 
IMAPClient 对 象 连 接 到 IMAP 服务 器 并 接收 电子 邮件 。 痛 先 ， 你 需要 电子 邮件 服务 提供 商 的 
IMAP 服务 器 域名 。 这 和 SMTP 服务 器 的 域名 不 同 。 表 18-2 列 出 了 几 个 流行 的 电子 邮件 服务 提 
供 商 的 IMAP 服务 器 。 
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表 18-2 电子 邮件 提供 商 及 其 IMAP 服务 器 


提供 商 IMAP 服务 器 域名 
Gmail* imap.gmail.com 
Outiook/Hotmail * imap-mail.outlook.com 
Yahoo Mail* imap.mail.yahoo.com 
AT&T imap.mail.att.net 
Comcast imap.comcast.net 
Verizon incoming.verizon.net 


* 附 加 的 安全 措施 让 Python 无 法 使 用 ijmapclient 模块 登录 这 些 服务 器 。 

得 到 IMAP 服务 器 域名 后 ， 调 用 imapclient.IMAPCLient() 函数 来 创建 一 
IMAPClient 对 象 。 大 多 数 电 子 邮件 提供 商 要 求 SSL 加 密 ， 传 入 ssl=True 关键 字 参 数 。 在 交 
互 式 环境 中 输入 以 下 代码 (使 用 你 的 提供 商 的 域名 ): 


>>> import imapclient 
>>> imapObj = imapclient.IMAPClient('imap. .< »', SSl1=True) 


ss 下 未 本 尖 玫 报导 春 必 五 或 球技 的 全 于 中 :bg 深 生 和 亿 人 DADEiTbnt， 
IMAPClient() 函数 返回 的 IMAPClient 对 象 。 在 这 里 ， 客 户 疹 是 连接 到 服务 器 的 对 象 。 


18.5.2 登录 到 IMAP 服务 器 


取得 IMAPClient 对 象 后 ， 调 用 它 的 1ogin() 方 法 ， 传 入 用 户 名 (这 通常 是 你 的 电子 邮件 
地 址 ) 和 口令 字符 串 。 

>>> imap0bj.login('my_email address@example.com', ‘MY_SECRET_ PASSWORD' ) 

'my_email address@example.com Jane Doe authenticated (Success)' 


警告 : 要 记 住 ， 永 远 不 要 直接 在 代码 中 写 入 口令 ! 应 该 让 程序 从 input ( ) 接收 输入 的 口令 。 
如 果 IMAP 服务 器 拒绝 用 户 名 /口令 的 组 合 ，Python 会 抛 出 imaplib.error 异常 。 


18.5.3 ”搜索 电子 邮件 


登录 后 ， 实 际 获取 你 感 兴趣 的 电子 邮件 分 为 两 步 。 首 先 ， 必须 选择 要 搜索 的 文件 来 。 然 后 ， 
必须 调用 IMAPClient 对 象 的 search() 方 法 ， 疝 其 传 入 IMAP 搜索 关键 词 字符 串 。 


选择 文件 夹 


几乎 每 个 账户 默认 有 一 个 INBOX 文件 夹 , 但 也 可 以 调用 IMAPCLient 对 象 的 list folders() 
方法 来 获取 文件 夹 列表 。 这 将 返回 一 个 元 组 的 列表 。 每 个 元 组 包含 一 个 文件 夹 的 信息 。 输 入 以 
下 代码 ， 继 续 演示 交互 式 环境 的 例子 : 

>>> import pprint 


>>> pprint.pprint(imapObi.list folders()) 
[(('\\HasNoChildren',), “es Dratts’j), 
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(('\\HasNoChildren',), '/', 'Filler'), 
(('\\HasNoChildren',), '/', 'INBOX'), 
(('\\HasNoChildren',), '/', 'Sent'), 

-~-SNip-- 
(('\\HasNoChildren', '\\Flagged'), '/', 'Starred'), 
(('\\HasNoChildren’', '\\Trash'), '/', ‘Trash’')] 


每 个 元 组 的 3 个 值 ， 例 如 ( ('\\HasNoChildren',)，'/'，'INBOX' )， 其 解释 如 下 。 
口 该 文件 夹 的 标志 的 元 组 (这些 标志 代表 到 底 是 什么 超出 了 本 书 的 讨论 范围 ， 你 可 以 放心 
地 忽略 该 字段 )。 
口 名 称 字符 串 中 用 于 分 隔 父 文件 夹 和 子 文件 夹 的 分 隔 符 。 
口 该 文件 夹 的 全 名 。 
要 选择 一 个 文件 夹 进行 搜索 ， 就 调用 IMAPC1lient 对 象 的 select folder() 方 法 ， 传 入 
该 文件 夹 的 名 称 字符 串 : 


>>> imapO0bj.select folder('INBOX', readonly=True) 


可 以 忽略 select_folder() 的 返回 值 。 如 果 所 选 文件 夹 不 存在 ，Python 会 抛 出 


imaplib.error 异常 。 

readonly=True 关键 字 参 数 可 以 防止 你 在 随后 的 方法 调用 中 ， 不 小 心 更 改 或 删除 该 文 
件 夹 中 的 任何 电子 邮件 。 除 非 你 想 删 除 电 子 邮件 ， 和 否则 将 readonly 设置 为 True 总 是 个 好 
主意 。 

执行 搜索 

文件 夹 选 中 后 ,就 可 以 用 IMAPClient 对 象 的 search() 方 法 搜索 电子 邮件 ,search() 
的 参数 是 一 个 字符 串 列表 ， 每 一 个 被 格式 化 为 IMAP 搜索 键 。 表 18-3 介绍 了 IMAP 的 各 种 
搜索 键 。 

请 注意 ， 在 处 理 标 志和 搜索 键 方面 ， 某 些 IMAP 服务 器 的 实现 可 能 稍 有 不 同 。 可 能 需要 在 
交互 式 环境 中 试验 一 下 ， 看 看 它们 实际 的 行为 如 何 。 

在 传 入 search() 方 法 的 列表 参数 中 ， 可 以 有 多 个 IMAP 搜索 键 字符 串 。 返 回 的 消息 将 匹 
配 所 有 的 搜索 键 。 如 果 想 匹配 任何 一 个 搜索 键 ， 使 用 OR 搜索 键 。 对 于 NOT 和 OR 搜索 键 ， 它 
们 后 边 分 别 跟着 一 个 和 两 个 完整 的 搜索 键 。 


表 18-3 ”IMAP 搜索 键 


搜索 键 含义 
返回 该 文件 夹 中 的 所 有 邮件 。 如 果 你 请 求 一 个 大 文件 夹 中 的 所 有 消息 ， 可 能 会 遇 到 imaplib 


i 的 大 小 限制 。 参 见 本 小 节 “ 大 小 限制 ”部 分 

'BEFORE date '， 这 3 个 搜索 键 分 别 返回 给 定 date 之 前 、 当 天 和 之 后 IMAP 服务 器 接收 的 消息 。 日 期 的 格式 必 
'ON date ' ， 须 为 05-Jul-2015。 此 外 ， 虽 然 'SINCE 05-Jul-2015' 将 匹配 7 月 5 日 当天 和 之 后 的 消息 ， 
'SINCE date， 但 'BEFORE 05-Jul-2015' 仅 匹配 7 月 5 日 之 前 的 消息 ， 不 包括 7 月 5 日 当天 


'SUBJECT string', 
"BODY string', 
"TEXT string' 


分 别 返 回 string 出 现在 主题 、 正 文 、 主 题 或 正文 中 的 消息 。 如 果 string 中 有 空格 ， 就 使 
用 双 引 号 : 'TEXT "search with spaces"' 
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续 表 


搜索 键 含义 
FROM String ' ， 


返回 所 有 消息 ， 其 中 string 分 别 出 现 在 “from” 邮 件 地 址 “to” 邮 件 地 址 “cc”( 抄 送 ) 


地 址 或 “bcc”( 密 件 抄 送 ) 地 址 中 。 如 果 string 中 有 多 个 电子 邮件 地 址 ， 就 用 空格 将 它们 
CC strjing ， 分 开 ， 并 使 用 双 引 号 : 'CC "firstcceexamp1le.com secondcc@example.com"' 
'BCC string' 

,SEEN， 分 别 返回 包含 和 不 包含 \Seen 标记 的 所 有 信息 。 如 果 电 子 邮件 已 经 被 fetch ( ) 方法 调用 访问 
磺 ( 稍 后 描述 )， 或 者 你 曾 在 电子 邮件 程序 或 网 络 浏览 器 中 单 击 过 它 ， 就 会 有 \Seen 标记 。 比 较 
ER 常用 的 说 法 是 电子 邮件 “已 读 ”， 而 不 是 “已 看 ”但 它们 的 意思 一 样 

'ANSWERED' ， 分 别 返 回 包含 和 不 包含 \Answered 标记 的 所 有 消息 。 如 果 消 息 已 答复 ， 就 会 有 \ Answered 
'UNANSWERED' 标记 


分 别 返 回 包含 和 不 包含 \Deleted 标记 的 所 有 信息 。 用 delete_messages() 方 法 删除 的 邮 


ie 件 就 会 有 \Deleted 标记 ,直到 调用 expunge( ) 方 法 才 会 永久 删除 (请 参阅 18.5.7 小 节 “ 删 
除 电子 邮件 ”)。 请 注意 ， 一 些 电子 邮件 提供 商 ， 例 如 Gmail， 会 自动 清除 邮件 

‘DRAFT', 分 别 返 回 包含 和 不 包含 \Draft 标记 的 所 有 消息 。 草 稿 邮 件 通 常 保存 在 单独 的 草稿 文件 夹 中 ， 

:UNDRAFT， 而 不 是 在 收 件 箱 中 

'FLAGGED '， 分 别 返 回 包含 和 不 包含 \Flagged 标记 的 所 有 消息 。 这 个 标记 通常 用 来 标记 电子 邮件 为 “ 重 

'UNFLAGGED， 要 ”或 “紧急 ” 

'LARGER N', a 

eol, 分 别 返 回 大 于 或 小 于 个 字 节 的 所 有 消息 


'NOT search-key， 返回 搜索 键 不 会 返回 的 那些 消息 
'OR Search-key1 


search-key2' 

下 面 是 search( ) 方 法 调用 的 一 些 例子 ， 以 及 它们 的 含义 。 

imap0bj .search(['ALL']) 返 回 当 前 选 定 的 文件 夹 中 的 每 一 个 消息 。 

imap0bj .search(['ON 05-Jul-2019']) 返 回 在 2019 年 7 月 5 日 发 送 的 每 个 消息 。 

imapObj .search(['SINCE 01-Jan-2019', 'BEFORE 01-Feb-2019', 'UNSEEN']) 
返回 2019 年 1 月 发 送 的 所 有 未 读 消息 (注意 ， 这 意味 着 从 1 月 1 日 直到 2 月 1 日 , 但 不 包括 2 
及 

imap0bj .search(['SINCE 01-Jan-2019'，'FROM alice@example. com']) 返 加 
自 2019 年 开始 以 来 ， 发 自 alice@example.com 的 消息 。 

imapObj .search(['SINCE 01-Jan-2019'，'NOT FROM alice@example. com']) 返 
回 自 2019 年 开始 以 来 ， 除 alice@example.com 外 ， 其 他 所 有 人 发 来 的 消息 。 

imapobj .search(['OR FROM alice@example.com FROM bob@example. com']) 
返回 发 自 alice@example.com 或 bob@example.com 的 所 有 信息 。 

Imapobj .search([' FROM alice@example.com', "FROM bob@example. com |] ) 
为 恶作剧 例子 。 该 搜索 不 会 返回 任何 消息 ， 因 为 消息 必须 匹配 所 有 搜索 关键 词 。 因 为 只 能 有 一 个 
“from” 地 址 ， 所 以 一 条 消息 不 可 能 既 来 自 alice@example.com， 又 来 目 bob@example.com。 

search () 方 法 不 返回 电子 邮件 本 身 ， 而 是 返回 邮件 的 唯一 ID (UID)。 然 后 ， 可 以 将 这 些 
UID 传 入 fetch() 方 法 ， 获 得 邮件 内 容 。 


返回 符合 第 一 个 或 第 二 个 搜索 键 的 消息 
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输入 以 下 代码 ， 继 续 演示 交互 式 环境 的 例子 : 


>>> UIDs = imap0bj.search(['SINCE 05-Jul-2019']) 
>>> UIDs 
[40032，40033，40034，40035，40036，40037，40038，40039，40040，40041 ] 


这 里 ，search() 返 回 的 消息 ID 列表 (针对 7 月 5 日 以 来 接收 的 消息 ) 保存 在 UIDs 中 。 
计算 机 上 返回 的 UIDs 列表 与 这 里 显示 的 不 同 ， 它 们 对 于 特定 的 电子 邮件 账户 是 唯一 的 。 如 果 
你 稍 后 将 UID 传递 给 其 他 函数 调用 ， 请 用 你 收 到 的 UID 值 ， 而 不 是 本 书 例子 中 输出 的 。 


大 小 限制 


如 果 你 的 搜索 匹配 大 量 的 电子 邮件 ，Python 可 能 抛 出 异常 imaplib.error: got more 
than 10000 bytes。 如 果 发 生 这 种 情况 ， 必 须 断 开 并 重 连 IMAP 服务 器 ， 然 后 再 试 。 

这 个 限制 是 防止 Python 程序 消耗 太 多 内 存 。 遗 憾 的 是 ， 默 认 大 小 限制 往往 太 小 。 可 以 执行 
下 面 的 代码 ， 将 限制 从 10 000 字 节 改 为 10 000 000 字 节 : 


>>> import imaplib 
>>> imaplib. MAXLINE = 10000000 


这 能 避免 该 异常 再 次 出 现 。 也 许 要 在 你 写 的 每 一 个 IMAP 程序 中 加 上 这 两 行 。 
18.5.4 取 邮 件 并 标记 为 已 读 


得 到 UID 的 列表 后 ， 可 以 调用 IMAPClient 对 象 的 fetch () 方 法 ， 来 获得 实际 的 电子 邮 
件 内 容 。 

UID 列表 是 fetch () 的 第 一 个 参数 。 第 二 个 参数 应 该 是 ['BODY[] ' ] ， 它 告诉 fetch() 下 
载 UID 列表 中 指定 电子 邮件 的 所 有 正文 内 容 。 

让 我 们 继续 演示 交互 式 环境 的 例子 : 


>>> rawMessages = imapO0bij.fetch(UIDs, ['B0DY[]']) 

>>> import pprint 

>>> pprint.pprint(rawMessages) 

{40040: {'BODY[]': ‘Delivered-To: my_ email address@example.com\r\n' 
'Received: by 10.76.71.167 with SMTP id ' 

--Snip-- 


导入 pprint， 将 fetch() 的 返回 值 (保存 在 变量 rawMessages 中 ) 传 入 pprint . 
pprint(),“ 美 观 地 输出 ” 它 。 你 会 看 到 ， 这 个 返回 值 是 消息 的 垦 套 字典 ,其 中 以 UID 作为 键 。 
每 条 消息 都 保存 为 一 个 字典 ， 包 含 两 个 键 : 'BODY[] ' 和 'SEQ' 。'BODY[] ' 刍 映射 到 电子 邮件 
的 实际 正文 。'SEQ' 键 是 序列 号 ， 它 与 UID 的 作用 类 似 。 你 可 以 放心 地 忽略 它 。 

如 你 所 见 , 在 'BODY[ ] ' 键 中 的 消息 内 容 是 相当 难 理解 的 。 这 种 格式 称 为 RFC 822， 是 专 为 
IMAP 服务 器 读 取 而 设 计 的 。 但 你 并 不 需要 理解 RFC 822 格式 ， 本章 稍 后 的 pyzmail 模块 将 替 
你 来 理解 它 。 

如 果 你 选择 一 个 文件 夹 进行 搜索 ， 就 用 readonly=True 关键 字 参 数 来 调用 select_ 
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folder()。 这 样 做 可 以 防止 意外 删除 电子 邮件 ， 但 这 也 意味 着 你 用 fetch( ) 方 法 获取 邮件 时 ， 
它们 不 会 标记 为 已 读 。 如 果 确 实 希 望 在 获取 邮件 时 将 它们 标记 为 已 读 ， 就 需要 将 
readonly=False 传 入 select_folder()。 如 果 所 选 文件 夹 已 处 于 只 读 模式 ， 可 以 用 另 一 个 
select folder() 调 用 重新 选择 当前 文件 夹 ， 这 次 用 readonly=False 关键 字 参 数 : 


>>> imapObj.select folder('INBOX', readonly=False) 


18.5.5 ”从 原始 消息 中 获取 电子 邮件 地 址 


对 于 只 想 读 邮件 的 人 来 说 ，fetch( ) 方 法 返回 的 原始 消息 仍然 不 太 有 用 。pyzmail 模块 解 
析 这 些 原始 消息 ， 将 它们 作为 PyzMessage 对 和 象 返 回 ， 使 邮件 的 主题 、 正 文 、“ 收 件 人 ”字段 、 
“发 件 人 ”字段 和 其 他 部 分 能 用 Python 代码 轻松 访问 。 

用 下 面 的 代码 继续 演示 交互 式 环境 的 例子 〈 使 用 你 上 自己 的 邮件 账 尸 的 UID， 而 不 是 这 里 显 
示 的 ): 


>>> import pyzmail 
>>> message = pyzmail.PyzMessage.factory (rawMessages[40041][b'BODY[]']) 


首先 , 导入 pyzmail。 然后 , 为 了 创建 一 个 电子 邮件 的 PyzMessage 对 象 , 调用 pyzmail. 
PyzMessage.factory() 函 数 ， 并 传 入 原始 邮件 的 'BODY[ ] ' 部 分 。 结 果 保 存在 message 中 。 
现在 ，message 中 包含 一 个 PyzMessage 对 象 ， 它 有 几 个 方法 ， 可 以 很 容易 地 获得 电子 邮件 主 
题 行 ， 以 及 所 有 发 件 人 和 收 件 人 的 地 址 。get_subject() 方 法 将 主题 返回 为 一 个 简单 字符 串 。 
get_addresses() 方 法 针对 传 入 的 字段 ， 返 回 一 个 地 址 列表 。 例 如 ， 该 方法 调用 可 能 像 这 样 : 


>>> message.get subject() 

'Hello!' 

>>> message.get addresses(' from ') 

[('Edward Snowden', 'esnowden@nsa.gov')] 

>>> message.get addresses('to') 

[('Jane Doe', 'my email address@example.com')] 
>>> message.get addresses('cc') 


>>> message.get addresses('bcc') 


请 注意 , get_ addresses() 的 参数 是 'from'、'to'、'cc' 或 'bcc'。get addresses() 
的 返回 值 是 一 个 元 组 列表 。 每 个 元 组 包含 两 个 字符 串 : 第 一 个 是 与 该 电子 邮件 地 址 关联 的 名 称 ， 
第 二 个 是 电子 邮件 地 址 本 身 。 如 果 请 求 的 字段 中 没有 地 址 ，get_addresses() 返 回 一 个 空 列 
表 。 在 这 里 ，'cc' 抄 送 和 'bcc' 密 件 抄 送 字 段 都 没有 包含 地 址 ， 所 以 返回 空 列表 。 


18.5.6 ”从 原始 消息 中 获取 正文 


电子 邮件 可 以 是 纯 文本 、HTML 或 两 者 的 混合 。 纯 文本 电子 邮件 只 包含 文本 : 而 HTML 电 
子 邮 件 可 以 有 颜色 、 字 体 、 图 像 和 其 他 功能 ， 使 得 电子 邮件 看 起 来 像 一 个 小 网 页 。 如 果 电 子 邮 
件 仅 仅 是 纯 文 本 ， 它 的 PyzMessage 对 象 会 将 html part 属性 设 为 None。 同 样 ， 如 果 电 子 邮 
件 只 是 HTML， 它 的 PyzMessage 对 象 会 将 text_part 属性 设 为 None。 
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否则 ，text_part 或 html_part 将 有 一 个 get_pay1load () 方 法 ， 将 电子 邮件 的 正文 返 
回 为 bytes 数据 类 型 (bytes 数据 类 型 超出 了 本 书 的 范围 )。 但 是 ， 这 仍然 不 是 我 们 可 以 使 用 的 字 
符 串 。 最 后 一 步 对 get_pay1load () 返 回 的 bytes 值 调 用 decode() 方 法 。decode() 方 法 接收 
一 个 参数 : 这 条 消息 的 字符 编码 ， 它 保存 在 text_part.charset 或 html_part.charset 
属性 中 。 最 后 ， 这 返回 了 邮件 正文 的 字符 串 。 

输入 以 下 代码 ， 继 续 演 示 交 互 式 环境 的 例子 : 


© >>> message.text part != None 
True 
>>> message.text part.get payload().decode(message.text part.charset) 
@ 'So long, and thanks for all the fish!l\r\n\r\n-Al\r\n’ 
© >>> message.html part != None 
True 
9 >>> message.html part.get payload().decode(message.html part.charset) 
“<div dir="]ltr"><div>So long, and thanks for all the fish!<br><br></div>-Al 
<br></div>\r\n' 


我 们 正在 处 理 的 电子 邮件 包含 纯 文 本 和 HTML 内 容 ， 因 此 保存 在 message 中 的 
PyzMessage 对 象 的 text_part 和 html_part 属性 不 等 于 None@ 上 日 。 对 消息 的 text_part 
调用 get_payload()， 然 后 在 bytes 值 上 调用 decode()， 返回 电子 邮件 的 文本 版 本 的 字符 串 
@。 对 消息 的 html_part 调用 get_payload() 和 decode(), 返回 电子 邮件 的 HTML 版 本 的 
字符 串 @。 


18.5.7 ”删除 电子 邮件 


要 删除 电子 邮件 ， 就 向 IMAPClient 对 象 的 delete _messages() 方 法 传 入 一 个 消息 UID 
的 列表 。 这 为 电子 邮件 加 上 \Deleted 标志 。 调 用 expunge() 方 法 ， 将 永久 删除 当前 选中 的 文件 
夹 中 禹 \Deleted 标志 的 所 有 电子 邮件 。 请 看 下 面 的 交互 式 环境 的 例子 : 


0 >>> imapObj.select folder('INBOX', readonly=False) 
© >>> UIDs = imap0bj.search(['ON 09-Jul-2019']) 

>>> UIDs 

[40066 ] 

>>> ”vimap0bj.delete_messages(UIDSs ) 
© {40066: ('\\Seen'’, '\\Deleted'’)} 

>>> imapObj .expunge() 

('Success', [(S5452, “EXISTS ' ) ]) 


这 里 ， 我 们 调用 了 IMAPC1lient 对 象 的 select folder() 方 法 ， 传 入 'INBOX ' 作为 第 一 
个 参数 ， 选 择 了 收 件 箱 。 我 们 也 传 入 了 关键 字 参 数 readonly=False， 这 样 我 们 就 可 以 删除 电 
子 邮件 @ 了。 我 们 搜索 收 件 箱 中 的 特定 日 期 收 到 的 消息 ， 将 返回 的 消息 ID 保存 在 UIDs 中 @。 
调用 delete_message() 并 传 入 UIDs 以 返回 一 个 字典 ， 其 中 每 个 键 - 值 对 是 一 个 消息 ID 和 消 
县 标志 的 元 组 ， 它 现在 应 该 包含 Deleted 标志 人 @。 然 后 调用 expunge()， 永 久 删 除 带 \Deleted 
标志 的 邮件 。 如 果 清 除 邮 件 没有 问题 ， 就 返回 一 条 成 功 信息 。 请 注意 ， 一 些 电子 邮件 提供 商 ， 
如 Gmail， 会 自动 清除 用 delete_messages() 删 除 的 电子 邮件 ， 而 不 是 等 待 来 自 IMAP 客户 
端的 expunge 命令 。 
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18.5.8 从 1IMAP 服务 器 断 开 


如 果 程 序 已 经 完成 了 获取 和 删除 电子 邮件 任务 ， 就 调用 IMAPClient 的 1ogout ( ) 方 法 从 
IMAP 服务 器 断 开 连接 : 

>>> imapObj.logout() 

如 果 程 序 运 行 了 几 分 钟 或 更 长 时 间 ,IMAP 服务 器 可 能 会 超时 或 自动 断 开 。 在 这 种 情况 下 ， 
接 下 来 程序 对 IMAPClient 对 象 的 方法 调用 会 抛 出 异常 ， 像 下 面 这 样 : 


imaplib.abort: socket error: [WinError 10054] An existing connection was 
forcibly closed by the remote host 


在 这 种 情况 下 ， 程 序 必须 调用 ijmapclient.IMAPClient()， 来 再 次 连接 服务 器 。 
你 现在 有 办 法 让 Python 程序 登录 到 一 个 电子 邮件 账户 ， 并 获取 电子 邮件 。 需 要 回忆 所 有 步 
又 时 ， 你 可 以 随时 参考 18.5 节 “ 用 IMAP 获取 和 删除 电子 邮件 ”。 


18.6 项目 : 向 会 员 发 送 会 费 提 醒 电 子 邮 件 


假定 你 一 直 “ 自 愿 ” 为 “强制 自愿 俱乐部 ”记录 会 员 会 费 。 这 确实 是 一 bm 包 
括 维护 一 个 电子 表格 ， 记 录 每 个 月 谁 交 了 会 费 ， 并 用 电子 邮件 提醒 那些 没 交 的 会 员 。 你 不 必 目 
己 查 看 电子 表格 ， 而 是 向 会 费 侈 期 的 会 员 复制 、 粘 贴 和 发 送 相同 的 电子 邮件 。 让 溉 向 缚 写 一 a 
脚本 ， 帮 你 完成 任务 。 

在 较 高 的 层面 上 ， 下 面 是 程序 要 完成 的 任务 。 

1. 从 Excel 电子 表格 中 读 取 数据 。 

2. 找 出 上 个 月 没有 交 费 的 所 有 会 员 

3. 找到 他 们 的 电子 邮件 地 址 ， 向 他 们 发 送 针 对 个 人 的 提醒 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 用 openpyxl 模块 打开 并 读 取 Excel 文档 的 单元 格 〈 处 理 Excel 文档 参见 第 13 章 )。 

2. 创建 一 个 字典 ， 包 含 会 费 逾 期 的 会 员 

3. 调用 smtplib.SMTP()、ehlo()、starttls() 和 1ogin()， 登 录 SMTP 服务 器 。 

4. 针对 会 费 逾 期 的 所 有 会 员 ， 调 用 sendmail() 方 法 ， 发 送 针 对 个 人 的 电子 邮件 提醒 。 

打开 一 个 新 的 文件 编辑 器 窗口 ， 并 保存 为 sndDuesReminders.py。 


第 1 步 : 打开 Excel 文件 


假定 用 来 记录 会 费 文 付 的 Excel 电子 表格 看 起 来 如 图 18-2 所 示 , 放 在 名 为 duesRecords.xlsx 
的 文件 中 。 可 以 从 异步 社区 本 书 对 应 页 面 下 载 该 文件 。 

该 电子 表格 中 包含 每 个 成 员 的 姓名 和 电子 邮件 地 址 。 每 个 月 有 一 列 ， 用 来 记录 会 员 的 付款 
状态 。 在 成 员 支 付 会 费 后 ， 对 应 的 单元 格 就 记 为 pald 。 

该 程序 必须 打开 duesRecords.xlsx， 通 过 读 取 sheet.max column 属性 ， 弄 清楚 最 近 一 个 月 的 


18.6 项 目 : 向 会 员 发 送 会 费 提 醒 电子 邮件 347 


列 〈 可 以 参考 第 13 章 ， 了 解 用 openpyx1l 模块 访问 Excel 电子 表格 文件 单元 格 的 更 多 信息 )。 
在 文件 编辑 器 窗口 中 输入 以 下 代码 : 


#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 


import openpyxl, smtplib, sys 
# Open the spreadsheet and get the latest dues status. 
O@ wb = openpyxl.1load workbook('duesRecords.xlsx') 
© Sheet = wb.get sheet by name('Sheet1') 
© lastCol = sheet.max column 
@ latestMonth = sheet.cell(row=1, column=lastCol).value 
# TODO: Check each member's payment status. 
# TODO: Log in to email account. 


# TODO: Send out reminder emails. 


ee 


Feb 2014 Mar2014 Apr2014 May2014 Jun2014 
alice@example.com i paid paid paid | 
bob@example.com paid paid 
carol@example.com paid paid 
david@example.com i paid paid 
eve@example.com paid paid 
fred@example.com i paid paid 


图 18-2 ”记录 会 员 会 费 支付 的 电子 表格 


导入 openpyxl、smtplib 和 sys 模块 后 ， 我 们 打开 duesRecords .xlsx 文件 ， 将 得 到 
的 Workbook 对 象 保存 在 wb 中 @。 然后 取得 Sheet1， 将 得 到 的 Worksheet 对 象 保存 在 sheet 
中 @。 既 然 有 了 Worksheet 对 象 ， 就 可 以 访问 行 、 列 和 单元 格 了 。 我 们 将 最 后 一 列 保存 在 
lastCol 中 目 ， 然 后 用 行 号 1 和 lastCol 来 访问 应 该 记录 着 最 近 月 份 的 单元 格 。 取 得 该 单元 
格 的 值 ， 并 将 其 保存 在 latestMonth 中 @。 


第 2 步 : 查找 所 有 未 支付 会 费 的 成 员 


一 旦 确定 了 最 近 一 个 月 的 列 数 ( 保 存在 1lastCcol 中 )， 就 可 以 循环 遍历 第 一 行 〈 这 是 列 标 
题 ) 之 后 的 所 有 行 ， 看 看 哪些 成 员 在 该 月 会 费 的 单元 格 中 写 痢 paid。 如 果 会 员 没 有 支付 会 费 ， 
就 可 以 从 列 1 和 列 2 中 分 别 抓 取 成 员 的 姓名 和 电子 邮件 地 址 .这 些 信息 将 放 入 unpaidMembers 
字典 ， 它 记录 最 近 一 个 月 没有 交 费 的 所 有 成 员 。 将 以 下 代码 添加 到 sendDuesReminderpy 中 : 


#!1 python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 


fe 
, 


J dr jd nd 


a A 多 襄 ie - 
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--SNip-- 


# Check each member's payment status. 
unpaidMembers = {} 
© for r in range(2, sheet.max row + 1): 
© payment = sheet.cell(row=r, column=lastC0l1).value 
if payment != “paid ' : 

© name = Sheet.cell(row=r，column=1) .value 
© email = Sheet.cell(row=r，column=2) .value 
© unpaidMembers[name] = email 


这 段 代码 设置 了 一 个 空 字典 unpaidMembers， 然 后 循环 遍历 第 一 行 之 后 所 有 的 行 @Q。 对 于 每 
一 行 ， 最 近 月 份 的 值 保 存在 payment 中 加。 如 果 payment 不 等 于 ' paid'， 则 第 一 列 的 值 保存 在 
name 中 @@， 第 二 列 的 值 保存 在 email 中 @， 将 name 和 email 添加 到 unpaidMembers 中 @. 


第 3 步 : 发 送 定制 的 电子 邮件 提醒 


得 到 所 有 未 付费 成 员 的 名 单 后 ， 就 可 以 向 他 们 发 送 电子 邮件 提醒 了 。 将 下 面 的 代码 添加 到 
程序 中 ， 但 要 代入 你 的 真实 电子 邮件 地 址 和 提供 商 的 信息 : 


#! python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 


~--SNiD-- 


# Log in to email account. 

Smtpobj = smtplib.SMTP('smtp. -4 一 2 ， 587) 

smtp0bj .eh1lo() 

smtp0bj .starttls() 
smtpObj.login('my email address@example.com', sys.argv[1]) 


调用 smtplib.SMTP() 并 传 入 提供 商 的 域名 和 端口 , 来 创建 一 个 SMTP 对 象 。 调用 ehlo() 
和 starttls()， 然后 调用 login()， 并 传 入 你 的 电子 邮件 地 址 和 sys .argv[1]〈 其 中 保存 者 
你 的 口令 字符 串 )。 在 每 次 运行 程序 时 ， 将 口令 作为 命令 行 参数 输入 ， 避 人 免 在 源 代码 中 保存 口令 。 

程序 登录 到 你 的 电子 邮件 账户 后 ， 就 应 该 遍历 unpaidMembers 字典 ， 回 未 支付 会 费 的 会 
员 的 电子 邮件 地 址 发 送 针 对 个 人 的 电子 邮件 。 将 以 下 代码 添加 到 sendDuesReminders.py: 


#! Python3 
# sendDuesReminders.py - Sends emails based on payment status in spreadsheet. 


--SNip-- 


# Send out reminder emails. 

for name, email in unpaidMembers.items(): 

@ body = "Subject: %s dues unpaid.\nDear %s,\nRecords Show that You have not 
paid dues for %s. Please make this payment as soon as possible. Thank you!’'" % 
(latestMonth, name, latestMonth) 

© print('Sending email to %s...' % email) 

© sendmailStatus = smtp0Obj.sendmail('my email address@example.com', email, body) 


@ if sendmailStatus != {}: 
print('There was a problem sending email to %s: %s' % (email, sendmailStatus)) 


smtp0bj .quit() 
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这 段 代 码 循环 遍历 unpaidMembers 中 的 姓名 和 电子 邮件 。 对 于 每 个 没有 付费 的 成 员 ， 我 
们 用 最 新 的 月 份 和 成 员 的 名 称 定制 了 一 条 消息 ， 并 保存 在 body 中 @。 和 输出 表示 正在 向 这 个 会 
员 的 电子 邮件 地 址 发 送 电 子 邮 件 @。 然 后 调用 sendmail()， 向 它 传 入 地 址 和 定制 的 消息 @。 
返回 值 保存 在 sendmailstatus 中 。 

回忆 一 下 ， 如 果 SMTP 服务 器 在 发 送 某 个 电子 邮件 时 报告 错误 ，sendmail() 方 法 将 返回 
一 个 非 空 的 字典 值 。for 循环 的 最 后 部 分 在 @ 行 检查 返回 的 字典 是 否 非 空 ， 如 果 非 空 ， 则 输出 
收 件 人 的 电子 邮件 地 址 以 及 返回 的 字典 。 

程序 完成 发 送 所 有 电子 邮件 后 ， 调 用 quit () 方 法 ， 与 SMTP 服务 器 断 开 连接 。 

如 果 运 行 该 程序 ， 输 出 结果 会 像 这 样 : 


Sending email to alice@example.com... 
Sending email to bob@example.com... 
Sending email to eve@example.com... 


收 件 人 会 收 到 一 封 关于 他 们 未 支付 会 费 的 邮件 ， 看 起 来 就 像 你 手动 发 送 的 邮件 一 样 。 


18.7 ”使 用 短信 和 电子 邮件 网 关 发 送 短信 


与 计算 机 相 比 ， 人 们 可 能 离 他 们 的 智能 手机 更 近 ， 所 以 短信 通常 是 比 电子 邮件 更 直接 、 更 
可 靠 的 通知 发 送 方式 。 此 外 ， 短 信 通 常 较 短 ， 因 此 人 们 更 有 可 能 去 读 短 信 。 

最 简单 、 但 不 是 最 可 靠 的 发 送 短信 的 方法 ， 是 使 用 SMS 〈 短 信服 务 ) 电子 邮件 网 关 ， 即 一 
个 电子 邮件 服务 器 。 手 机 供应 商 通过 电子 邮件 接收 文本 ， 然 后 以 短信 的 形式 转发 给 收 件 人 。 

你 可 以 用 ezgmail 或 smtplib 模块 编写 一 个 程序 来 发 送 这 些 邮 件 。 手 机 号 码 和 电话 公司 的 邮 
件 服务 器 构成 了 收 件 人 的 电子 邮件 地 址 。 邮 件 的 主题 和 正文 将 成 为 短信 的 正文 。 例 如， 要 向 Verizon 
客户 拥有 的 电话 号 码 415-555-1234 发 送 短 信 ， 你 会 发 送 一 封 邮件 到 4155551234@vtext.com。 

你 可 以 通过 网 络 搜索 “sms email gateway provider name”(SMS 电子 邮件 网 关 提 供 商 名 称 )， 
找到 手机 提供 商 的 SMS 电子 邮件 网 关 ， 表 18-4 列 出 了 几 个 常用 提供 商 的 网 关 。 许 多 供应 商都 
有 单独 的 电子 邮件 服务 器 服务 、SMS (短信 服务 ) 和 MMS (多 媒体 消息 服务 ,没有 字符 限制 )。 
如 果 你 想 发 送 一 张 照片 ， 你 必须 使 用 MMS 网 关 ， 并 将 文件 附加 到 邮件 中 。 


表 18-4 常用 移动 电话 提供 商 的 SMS 电子 邮件 网 关 


移动 电话 供应 商 SMS 网 关 MMS 网 关 
AT&T number(@txt.att.net number@mms.att.net 
Boost Mobile number@sms.myboostmobile.com 同 SMS 
Cricket number@sms.cricketwireless.net number@mms.cricketwireless.net 
Google Fi number@msg.fi.google.com 同 SMS 
Metro PCS number@mymetropcs.com 同 SMS 
Republic Wireless number(@text.republicwireless.com 同 SMS 
Sprint number(Omessaging.Sprintpcs.com number(Opm.sprint.com 


T-Mobile number@tmomail.net 同 SMS 
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续 表 
移动 电话 供应 商 SMS 网 关 MMS 网 关 
U.S. Cellular number(@email.uscc.net number@mms.uscc.net 
Verizon number(@vtext.com number@vzwpix.com 
Virgin Mobile number@vmobl.com number@vmpix.com 
XFinity Mobile number(@vtext.com number@mypixmessages.com 


如 果 你 不 知道 收 件 人 的 手机 供应 商 ， 可 以 尝试 使 用 运营 商 查 询 网 站 ， 应 该 可 以 提供 一 个 电 
话 号 码 的 运营 商 。 找 到 这 些 网 站 的 最 好 方法 是 在 网 上 搜索 “find cell phone provider for number” 
(查找 手机 号 码 的 运营 商 )。 在 这 些 网 站 中 ， 许 多 可 以 让 你 免费 查询 电话 号 码 〈 但 是 如 果 你 需要 
通过 他 们 的 API 查询 几 百 个 或 几 千 个 电话 号 码 ， 会 由 你 收费 )。 

虽然 短信 和 电子 邮件 网 关 免 费 又 简单 ， 但 有 以 下 几 个 主要 的 缺点 。 

口 你 无 法 保证 短信 会 及 时 到 达 ， 甚 至 无 法 保证 短信 到 达 。 

口 你 无 法 知道 短信 是 否 到 达 。 

口 短信 收 件 人 无 法 回复 。 

口 如 果 你 发 了 太 多 的 邮件 , 短信 网 关 可 能 会 阻止 你 , 而 且 没 有 办 法 知道 有 多 少 算是 “ 太 多 ”。 

口 短信 网 关 今 天 能 发 送 一 条 短信 ， 并 不 意味 着 明天 也 能 发 

当 你 需要 偶尔 发 送 非 紧 急 信息 时 ， 通 过 短信 网 关 发 送 短信 是 理想 的 选择 。 如 果 你 需要 更 可 
靠 的 服务 ， 请 使 用 非 电 子 邮 件 短 信 网 关 服 务 ， 如 下 文 所 述 。 


18.8 用 Twilio 发 送 短信 


在 本 节 中 ， 你 将 学 习 如 何 注册 免费 的 Twilio 服务 ， 并 用 它 的 Python 模块 发 送 短信 。Twilio 
是 一 个 “SMS 网 关 服 务 ”， 这 意味 着 它 是 一 种 服务 一 一 让 你 通过 程序 发 送 短信 。 虽 然 每 月 发 送 
多 少 短信 会 有 限制 ， 并 且 文 本 前 面 会 加 上 Sent from a Twilio trial account， 但 这 项 试用 服务 也 许 
能 满足 你 的 个 人 程序 。 免 费 试 用 没有 限期 ， 不 必 升 级 到 付费 的 套餐 。 

Twilio 不 是 唯一 的 SMS 网 关 服务 。 如 果 你 不 喜欢 使 用 Twilio， 可 以 在 线 搜索 free sms 
gateway、python sms apij， 甚 至 twilio alteratives， 寻 找 奉 代 服 务 。 

在 注册 Twilio 账户 之 前 ， 请 在 Windows 操作 系统 上 用 pip install--user-- _ upgrade 
twilio 安装 twilio 模块 (或 在 macOS 和 Linux 操作 系统 上 使 用 pip3)。 附 录 A 详细 介绍 了 
如 何 安装 第 三 方 模块 。 


注意 : 本 节 特 别针 对 美国 。Twilio 确 实 也 在 美国 以 外 的 国家 提供 手机 短信 服务 。 但 twi1io 模 块 及 其 函数 
在 美国 以 外 的 国家 也 能 用 。 


18.8.1 注册 Twilio 账号 
访问 Twilio 官方 网 站 并 填写 注册 表单 。 注 册 了 新 账户 后 ， 你 需要 提供 一 个 手机 号 码 ， 验 证 
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短信 将 发 给 该 号 码 。 访 问 Verified Caller IDs 页 面 ， 添 加 一 个 你 能 使 用 的 手机 号 码 。Twilio 将 向 
这 个 号 码 发 送 一 个 验证 码 ， 你 必须 在 页 面 上 输入 它 ， 以 验证 手机 号 码 (这 项 验证 是 必要 的 ， 防 
止 有 人 利用 该 服务 向 任意 的 手机 号 码 发 送 垃圾 短信 )。 现在 , 就 可 以 用 twilio 模块 向 这 个 电话 
号 码 发 送 短信 了 。 

Twilio 提供 的 试用 账户 包括 一 个 电话 号 码 ， 它 将 作为 短信 的 发 送 者 。 你 需要 两 个 信息 : 你 的 账 
户 SID 和 AUTH (认证 ) 标志 。 在 登录 Twilio 账户 时 ， 可 以 在 Dashboard 页 面 上 找到 这 些 信 息 。 从 
Python 程序 登录 时 ， 这 些 值 将 作为 你 的 Twilio 用 户 名 和 口令 。 


18.8.2 ”发送 短信 


一 旦 安装 了 twilio 模块 ， 注 册 了 Twilio 账号 ， 验 证 了 你 的 手机 号 码 ， 登 记 了 Twilio 电话 
号 码 ， 获 得 了 账户 的 SID 和 auth 标志 ， 你 就 做 好 通过 Python 脚本 向 你 自己 发 短信 的 准备 了 。 

与 所 有 的 注册 步骤 相 比 ， 实 际 的 Python 代码 很 简单 。 保 持 计算 机 连接 到 因特网 ， 在 交互 式 
环境 中 输入 以 下 代码 ， 用 你 的 真实 信息 替换 accountSID、authToken、myTwilioNumber 和 
myCellPhone 变量 的 值 : 


@ >>> from twilio.rest import Client 
>>> accountSID = ‘ACXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX' 
>>> authToken = “XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX 
@ >>> twiliocli = Client(accountSID, authToken) 
>>> myTwilioNumber = '+14955551234' 
>>> myCellPhone = “'+14955558888， 
© >>> message = twilioCli.messages.create(body='Mr. Watson - Come here - I want 
to see you.', from =myTwilioNumber, to=myCellPhone) 


输入 最 后 一 行 后 不 久 ， 你 会 收 到 一 条 短信 ， 内 容 为 : Sent from your Twilio trial account - Mr 
Watson - Come here — I want to see you.。 

基于 twilio 模块 的 设计 方式 ， 导 入 它 时 需要 使 用 from twilio.rest import Client， 
而 不 仅仅 是 import twilio@。 将 账户 的 SID 保存 在 accountSID 中 ， 认 证 标志 保存 在 
authToken 中 ， 然 后 调用 Client( )， 并 传 入 accountSID 和 authToken。Client() 调 用 返 
回 一 个 Client 对 象 @。 该 对 象 有 一 个 message 属性 ， 该 属性 又 有 一 个 create() 方 法 ， 可 以 
用 来 发 送 短信 。 这 个 方法 将 告诉 Twilio 的 服务 器 发 送 短信 。 将 你 的 Twilio 号 码 和 手机 号 码 分 别 
保存 在 myTwilioNumber 和 myCellPhone 中 ,然后 调用 create() ， 传 入 关键 字 参 数 ， 指 明 短 
信 的 正文 、 发 件 人 的 号 码 (myTwilioNumber)， 以 及 收 信 人 的 电话 号 码 (myCellPhone) 目 。 

create( ) 方 法 返回 的 Message 对 象 将 包含 已 发 送 短信 的 相关 信息 。 输 入 以 下 代码 ， 继 续 
演示 交互 式 环境 的 例子 : 


>>> message.to 

"二 14955558888 

>>> message.from_ 

“二 14955551234， 

>>> message.body 

'Mr. Watson - Come here - I want to See YOU.' 


to、from_ 和 body 属性 应 该 分 别 保存 了 你 的 手机 号 码 、Twilio 号 码 和 消息 。 请 注意 ， 发 
送 手 机 号 码 是 在 from_ 属 性 中 ,末尾 有 一 个 下 划 线 , 而 不 是 from。 这 是 因为 from 是 一 个 Python 
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关键 字 ( 例 如， 你 在 from modulename import * 形 式 的 import 语句 中 见 过 它 )， 因 此 它 不 
能 作为 一 个 属性 名 。 输 入 以 下 代码 ， 继 续 演示 交互 式 环境 的 例子 : 


>>> message.status 

“queued 

>>> message.date created 
datetime.datetime(2019, 7, 8, 1, 36, 18) 
>>> message.date sent == None 

True 


status 属性 应 该 包含 一 个 字符 串 。 如 果 消 息 被 创建 和 发 送 , date_created 和 date_sent 
属性 应 该 包含 一 个 datetime 对 象 。 如 果 已 收 到 短信 ， 而 status 属性 却 设置 为 'queued '， 
date_sent 属性 设置 为 None， 这 似乎 有 点 奇怪 。 这 是 因为 你 先 将 Message 对 象 记录 在 
message 变量 中 , 然后 短信 才 实 际 发 送 。 你 需要 重新 获取 Message 对 象 , 查看 它 最 新 的 status 
和 date _sent。 每 个 Twilio 消息 都 有 唯一 的 字符 串 ID (SID)， 可 用 于 获取 Message 对 象 的 最 
新 更 新 。 输 入 以 下 代码 ， 继 续 演示 交互 式 环境 的 例子 : 


>>> message.sid 
'SM09520de7639ba3af137c6fcb7c5f4b51 
© >>> updatedMessage = twilioCli.messages.get(message.sid) 
>>> UpdatedMessage.status 
'delivered' 
>>> updatedMessage.date sent 
datetime.datetime(2019, 7, 8, 1, 36, 18) 


输入 message.sid 将 显示 这 个 消息 的 SID。 将 这 个 SID 传 入 Twilio 客户 闯 的 get() 方 法 
O@， 你 可 以 取得 一 个 新 的 Message 对 象 ， 它 包含 最 新 的 消息 。 在 这 个 新 的 Message 对 象 中 ， 
status 和 date_sent 属性 是 正确 的 。 

status 属性 将 设置 为 下 列 字符 串 之 一 : 'queued'、'sending'、'sent'、'delivered'、 
'undelivered ' 或 'failed' 。 这 些 状态 不 言 自 明 ， 对 于 更 准确 的 细节 ， 请 查看 相关 资源 和 
图 书 。 


. 漂 Python 接收 短信 


i 遗憾 的 是 ， 用 Twilio 接收 短信 比 发 送 短信 更 复杂 一 些 。 Twilio 需要 你 有 一 个 网 站 ， 用 于 运 
行 自 己 的 Web 应 用 程序 ， 这 已 超出 了 本 书 的 范围 ， -得 条 可 以 在 网 上 找到 蝎 多 细节 . 


18.9 项 目 : “只 给 我 发 短信 ”模块 


好 方式 。 i 个 无 聊 的 任务 ， 它 需要 运行 几 小 时 ， 你 可 以 让 已 在 完成 
时 用 短信 通知 你 。 或 者 可 以 定期 运行 某 个 程序 ， 它 有 时 需要 与 你 联系 ， 例 如 天 气 检查 程序 用 短 
信和 提醒 你 带 全 。 

举 一 个 简单 的 例子 ， 下 面 是 一 个 Python 小 程序 ， 包含 了 textmyself () 函 数 ， 它 将 传 入 的 
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字符 串 参 数 作为 短信 发 出 。 打 开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 用 自己 的 信息 替换 
账户 SID、 认 证 标志 和 电话 号 码 ， 将 它 保存 为 textMyself.py: 


#! python3 
# textMyself.py - Defines the textmyself() function that texts a message 
# passed to it as a string. 


# Preset values: 

accountSID = ‘ACXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX ' 
authToken = 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX' 
myNumber = '+15559998888' 

twilioNumber = '+15552225678' 

from twilio.rest import Client 


@ def textmyself (message): 
@ twilioCli = Client(accountSID, authToken) 
© twilioCli.messages.create(body=message, from =twilioNumber, to=myNumber) 


该 程序 保存 了 账户 的 SID、 认证 标志 、 发 送 号 码 及 接收 号 码 。 然 后 它 定 义 了 textmyself() 


来 接收 参数 @， 创 建 Client 对 象 @， 并 用 你 传 入 的 消息 调用 create()@。 
如 果 你 想 让 其 他 程序 使 用 textmyself() 函 数 ， 只 需 将 textMyselfpy 文件 和 Python 脚本 
放 在 同一 个 文件 夹 中 ， 只 要 想 在 程序 中 发 短信 给 你 ， 就 添加 以 下 代码 : 


import textmyself 
textmyself.textmyself('The boring task is finished.') 


注册 Twilio 和 编写 短信 代码 只 需 做 一 次 。 在 此 之 后 ， 从 任何 其 他 程序 中 发 短信 都 只 需 两 行 


代码 。 
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通过 因特网 和 手机 网 络 ， 我 们 可 以 用 几 十 种 不 同 的 方式 相互 通信 ， 但 以 电子 邮件 和 短信 为 
主 。 你 的 程序 可 以 通过 这 些 渠 道 沟 通 ， 这 给 它们 带 来 强大 的 新 通知 功能 。 甚 至 可 以 编程 运行 在 
不 同 的 计算 机 上 , 相互 之 间 通 过 电子 邮件 通信 , 一 个 程序 用 SMTP 发 送 电子 邮件 , 另 一 个 用 IMAP 
收取 。 

Python 的 smtplib 提供 了 一 些 函数 ， 利 用 SMTP， 通 过 电子 邮件 提供 商 的 SMTP 服务 器 
发 送 电 子 邮 件 。 同 样 ， 第 三 方 的 imapclient 和 pyzmail 模块 让 你 访问 IMAP 服务 器 ， 并 取 
回 发 送 给 你 的 电子 邮件 。 虽 然 IMAP 比 SMTP 复杂 一 些 ， 但 它 也 相当 强大 ， 人 允许 你 搜索 特定 电 
子 邮 件 、 下 载 它们 、 解 析 它 们 ， 并 提取 主题 和 正文 作为 字符 串 值 。 

短信 与 电子 邮件 有 点 不 同 ， 因 为 它 不 像 电 子 邮 件 ， 发 送 短 信 不 仅 需 要 因特网 连接 。 好 在 ， 
像 Twilio 这 样 的 服务 提供 了 模块 ， 允 许 你 通过 程序 发 送 短 信 。 一 旦 通过 了 初始 设置 过 程 ， 就 能 
够 只 用 几 行 代码 来 发 送 短 信 。 

掌握 了 这 些 模块 ， 就 可 以 针对 特定 的 情况 编程 ， 在 这 些 情 况 下 发 送 通 知 或 提醒 。 现 在 ， 你 
的 程序 性 能 将 超越 运行 它们 的 计算 机 。 
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18.11 习题 


， 发 送 电子 邮件 的 协议 是 什么 ? 检查 和 接收 电子 邮件 的 协议 是 什么 ? 
， 必须 调 用 哪 4 个 smtplib 函数 /方法 ， 才 能 登录 到 SMTP 服务 器 ? 
.必须 调用 哪 两 个 imapclient 函数 /方法 ， 才 能 登录 到 IMAP 服务 器 ? 
应 传递 给 imap0bj .search() 什 么 样 的 参数 ? 
.如 果 你 的 代码 收 到 了 错误 信息 got more than 10000 bytes， 你 该 怎么 做 ? 
. imapclient 模块 负责 连接 到 IMAP. 服务 器 和 查找 电子 邮件 。 什 么 模块 负责 读 取 
imapclient 收集 的 电子 邮件 ? 

7. 在 使 用 Gmail API 时 ，credentials.json 和 token.json 文件 是 什么 ? 

8. 在 Gmail API 中 ，thread 和 message 对 象 有 什么 区 别 ? 

9. 利用 ezgmail.search()， 如 何 找到 有 文件 附件 的 邮件 ? 

10. 在 发 送 短信 之 前 ， 你 需要 从 Twilio 得 到 哪 3 种 信息 ? 


18.12 ”实践 项 目 
作为 实践 ， 编 程 完成 以 下 任务 。 


18.12.1 ”随机 分 配 家 务 活 的 电子 邮件 程序 


编写 一 个 程序 ， 接 收 一 个 电子 邮件 地 址 的 列表 以 及 一 个 需要 做 的 家 务 活 列 表 ， 并 随机 将 家 
务 活 分 配给 每 个 地 址 。 用 电子 邮件 通知 每 个 人 分 配给 他 们 的 家 务 活 。 如 果 你 觉得 需要 挑战 ， 就 
记录 每 个 人 之 前 分 配 家 务 活 的 记录 ， 这 样 就 可 以 确保 程序 不 会 癌 任何 人 分 配 与 上 一 次 相同 的 家 
务 活 。 另 一 个 可 能 的 功能 ， 就 是 安排 程序 每 周 目 动 运行 一 次 。 

这 里 有 一 个 提示 : 如 果 将 一 个 列表 传 入 random.choice() 函 数 ， 它 将 从 该 列表 中 返回 一 
个 随机 选择 的 项 。 你 的 部 分 代码 看 起 来 可 能 像 这 样 : 


chores = ['dishes', 'bathroom', 'vacuum', 'walk dog'] 
randomChore = random.choice(chores) 
chores.remove(randomChore) # this chore is now taken, so remove it 


18.12.2 例 提 醒 程 序 


第 12 章 展示 了 如 何 利 用 requests 模块 从 National Weather Service 官网 中 抓 取 数 据 。 编写 
一 个 程序 ， 在 你 早晨 快 醒 来 时 运行 ， 检 查 当 天 是 否 会 下 雨 。 如 果 会 下 雨 ， 让 程序 用 短信 提醒 你 
出 门 之 前 带 一 把 伞 。 


18.12.3 有 目 动 退 订 
编程 扫描 你 的 电子 邮件 账户 ， 在 所 有 邮件 中 找到 所 有 退 订 链接 ， 并 目 动 在 浏览 器 中 打开 
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它们 。 该 程序 必须 登录 到 你 的 电子 邮件 服务 提供 商 的 IMAP 服务 器 ， 并 下 载 所 有 电子 邮件 。 
可 以 用 Beautiful Soup (在 第 12 章 中 介绍 ) 检查 所 有 出 现 unsubscribe( 退 订 ) 的 HTML 
链接 标签 。 

得 到 这 些 URL 的 列表 后 ， 可 以 用 webbrowser .open() 在 浏览 器 中 自动 打开 所 有 这 些 链接 。 

仍然 需要 手动 操作 并 完成 所 有 额外 的 步骤 ， 以 从 这 些 邮件 列表 中 退 订 。 在 大 多 数 情况 下 ， 
这 需要 单 击 一 个 链接 确认 。 

但 这 个 脚本 让 你 不 必 查 看 所 有 电子 邮件 即 可 找到 退 订 链接 。 然 后 ， 可 以 将 这 个 脚本 转 给 你 
的 朋友 ， 让 他 们 能 够 针对 他 们 的 电子 邮件 账户 运行 它 〈 要 确保 你 的 邮箱 口令 没有 硬 编码 在 源 代 
码 中 )。 


18.12.4 通过 电子 邮件 控制 你 的 计算 机 


编写 一 个 程序 ,每 15 分 钟 检查 一 次 电子 邮件 账户 ， 获 取 用 电子 邮件 发 送 的 所 有 指令 ， 并 自 
动 执行 这 些 指令 。 例 如 ，BitTorrent 是 一 个 对 等 网 络 下 载 系 统 。 利 用 免费 的 BitTorrent 软件 ， 如 
qBittorrent, 可 以 在 家 用 计算 机 上 下 载 很 大 的 媒体 文件 .如 果 你 用 电子 邮件 向 该 程序 发 送 一 个 ( 完 
全 合法 的 ， 根 本 不 是 盗版 的 ) BitTorrent 链接 ， 该 程序 将 检查 电子 邮件 ， 发 现 这 个 消息 ， 提 取 链 
接 ， 然 后 启动 qBittorrent， 开 始 下 载 文件 。 通 过 这 种 方式 ， 你 可 以 在 离开 家 的 时 候 让 家 用 计算 
机 开始 下 载 ， 这 些 〈 完 全 合法 的 ， 根 本 不 是 盗版 的 ) 下 载 在 你 回 家 前 就 能 完成 。 

第 17 章 介 绍 了 如 何 利用 subprocess.Popen( ) 函 数 启动 计算 机 上 的 程序 。 下 面 的 调用 将 
启动 qBittorrent 程序 ， 并 打开 一 个 torrent 文件 : 


qbProcess = Subprocess.Popen(['"C:\\Program Files (x86)\\qBittorrent\\ 
qbittorrent.exe', 'shakespeare complete works.torrent']) 


当然 ， 你 希望 该 程序 确保 邮件 来 自 你 自己 。 具 体 来 说 ， 你 可 能 希望 该 邮件 包含 一 个 口令 ， 
因为 在 电子 邮件 中 伪造 “from” 地 址 对 黑客 来 说 很 容易 。 该 程序 应 该 删除 它 发 现 的 邮件 ， 这 样 
就 不 会 在 每 次 检查 电子 邮件 账户 时 重复 执行 命令 。 作 为 一 个 额外 的 功能 ， 让 程序 每 次 执行 命令 
时 , 用 电子 邮件 或 短信 给 你 发 一 条 确认 信息 。 因 为 该 程序 运行 时 你 不 会 坐 在 运行 它 的 计算 机 前 面 ， 
所 以 利用 日 志 函 数 〈 参 见 第 11 章 ) 写 文本 文件 日 志 是 一 个 好 主意 ， 你 可 以 检查 是 否 发 生 错 误 。 

qBittorrent〈 以 及 其 他 BitTorrent 应 用 程序 ) 有 一 个 功能 : 下 载 完成 后 ， 它 可 以 自动 退出 。 
第 17 章 解 释 了 如 何 用 Popen 对 象 的 wait () 方 法 确定 启动 的 应 用 程序 何 时 已 经 退出 。wait () 方 
法 调用 将 阻塞 ， 直 到 qBittorent 停止 ， 然 后 程序 可 以 通过 电子 邮件 或 短信 通知 你 下 载 已 经 完成 。 

可 以 为 这 个 项 目 添 加 许多 可 能 的 功能 。 如 果 遇 到 困难 ， 可 以 从 异步 社区 本 书 对 应 页 面 下 载 
这 个 程序 〈torrentStarterpy) 的 示例 实现 。 


操作 图 像 


如 果 你 有 一 台数 码 相 机 ， 或 者 只 是 将 照片 从 手机 上 传 到 Facebook， 你 
可 能 随时 会 遇 到 数字 图 像 文 件 。 你 可 能 知道 如 何 使 用 基本 的 图 形 软 件 ， 如 
Microsoft Paint 或 Paintbrush, 甚至 用 更 高 级 的 应 用 程序 , 如 Adobe Photoshop。 
但 是 ， 如 果 需 要 编辑 大 量 的 图 像 ， 手 动 编辑 可 能 是 漫长 、 繁 琐 的 工作 。 

请 用 Python。pillow 是 一 个 第 三 方 Python 模块 ， 用 于 处 理 图 像 文 件 。 
该 模块 包含 一 些 函数 ， 可 以 很 容易 地 裁剪 图 像 、 调 整 图 像 大 小 ， 以 及 编辑 图 
像 的 内 容 。 它 可 以 像 Microsoft Paint 或 Adobe Photoshop 一 样 处 理 图 像 ， 有 
了 这 种 能 力 , Python 可 以 轻松 地 自动 编辑 成 千 上 万 的 图 像 。 你 可 以 通过 运行 
pip install--user -U pillow==6.0.0 来 安装 pillow。 附 录 A 有 更 
多 关于 安装 第 三 方 模块 的 细节 。 


19.1 计算 机 图 像 基础 
有 
国 况 诈 


为 了 处 理 图 像 ， 你 需要 了 解 计算 机 如 何 处 理 图 像 中 的 颜色 和 坐标 的 基本 “~ 呈 
知识 ， 以 及 如 何在 pillow 中 处 理 颜色 和 坐标 。 但 在 继续 探讨 之 前 ， 先 要 安 ”元 中叶 
装 pillow 模块 。 


19.1.1 颜色 和 RGBA 值 


计算 机 程序 通常 将 图 像 中 的 颜色 表示 为 RGBA 值 .RGBA 值 是 一 组 数字 , 指定 颜色 中 的 红 、 
绿 、 蓝 和 alpha〔 透 明度 ) 的 值 。 这 些 值 是 从 0 (根本 没有 ) 到 255( 最 高) 的 整数 。 这 些 RGBA 
值 分 配给 单个 像素 ， 像 素 是 计算 机 屏幕 上 能 显示 一 种 颜色 的 最 小 点 《你 可 以 想到 ， 屏 幕 上 有 几 
百 万 像素 )。 像 素 的 RGB 值 设 置 准确 地 告诉 它 应 该 显示 哪 种 颜色 。 图 像 也 有 一 个 alpha 值 ， 用 
于 生成 RGBA 值 。 如 果 图 像 显 示 在 屏幕 上 ， 让 住 了 背景 图 像 或 果 和 面 墙纸 ，alpha 但 决定 了 “ 透 
过 ”这 个 图 像 的 像素 你 可 以 看 到 多 少 背景 。 

在 pillow 中 , RGBA 值 表示 为 4 个 整数 值 的 元 组 , 例如 , 红色 表示 为 (255, 0, 0, 255)。 
这 种 颜色 中 红 的 值 为 最 大 ， 没 有 绿 和 蓝 ， 并 且 alpha 值 最 大 ， 这 意味 着 它 完全 不 透明 。 绿 色 表 
示 为 (0，255，0，255)， 蓝 色 是 (0，0，255，255)。 白 色 是 各 种 颜色 的 组 合 ， 即 〈255 ， 
255，255，255); 而 黑色 没有 任何 颜色 ， 是 (0，0，0，255)。 

如 果 颜 色 的 alpha 值 为 0， 那么 不 论 RGB 值 是 什么 ， 该 颜色 都 是 不 可 见 的 。 毕 药 ， 不 可 见 
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的 红色 看 起 来 就 和 不 可 见 的 黑色 一 样 。 
pillow 使 用 了 HTML 使 用 的 标准 颜色 名 称 。 表 19-1 列 出 了 一 些 标准 颜色 的 名 称 及 其 
RGBA 值 。 


表 19-1 标准 颜色 名 称 及 其 RGBA 值 


名 称 RGBA 值 名 称 RGBA 值 

白色 (255，255，255，255) 红色 (255，0，0，255) 
绿色 (0，255，0，255) 蓝 色 (0，0，255，255) 
灰色 (128, 128, 128,，255) 黄色 (255, 255, 0, 255) 
黑色 (V0, 0 0, 255) 紫色 (128，0，128，255) 


pillow 提供 ImageCcolor .getcolor() 函 数 ， 所 以 你 不 必 记 住 想 用 的 颜色 的 RGBA 值 。 
该 函数 接收 一 个 颜色 名 称 字符 串 作 为 第 一 个 参数 ， 字 符 串 'RGBA' 作 为 第 二 个 参数 ， 返 回 一 个 
RGBA 元 组 。 

要 了 解 该 函数 的 工作 方式 ， 就 在 交互 式 环境 中 输入 以 下 代码 : 


© >>> from PIL import ImageColor 

@ >>> ImageColor.getcolor('red', 'RGBA') 

(255, 0 0 255) 

>>> ImageColor.getcolor('RED', 'RGBA') 

(255,. 0, 0 255) 

>>> ImageColor.getcolor('Black', 'RGBA') 

(0 0, 0 255) 

>>> ImageColor.getcolor('chocolate', 'RGBA') 
(210，105，30，255) 

>>> ImageColor.getcolor('CornflowerBlue', 'RGBA') 
(100, 149, 237, 255) 


首先 , 你 需要 从 PIL 导入 ImageColor 模块 @ (不 是 从 pillow, 稍 后 你 就 会 明白 为 什么 )。 
传递 给 ImageColor .getcolor() 的 颜色 名 称 字符 串 是 不 区 分 大 小 写 的 ， 因 此 传 入 'red'@ 和 
传 入 'RED' 利 将 得 到 同样 的 RGBA 元 组 。 还 可 以 传递 更 多 的 不 常见 的 颜色 名 称 ， 如 
'chocolate' 和 'Cornflower Blue '。 

pillow 支持 大 量 的 颜色 名 称 ， 从 'aliceblue' 到 'whitesmoke'。 在 No Starch 出 版 社 官 
网 本 书 对 应 页 面 的 资源 中 ， 可 以 找到 超过 100 种 标准 颜色 名 称 的 完整 列表 。 


19.1.2 ”坐标 和 Box 元 组 


图 像 像 素 用 x 和 y 坐标 指定 ， 它 们 分 别 指定 像素 在 图 像 中 的 水 平和 垂直 位 置 。 原 点 是 位 于 
图 像 左 上 角 的 像素 ， 用 符号 (0，0) 指定 。 第 一 个 0 表示 x 坐标 ， 它 以 原点 处 为 0， 从 左 至 右 增 
加 。 第 二 个 0 表示 y 坐标 ， 它 以 原点 处 为 0， 从 上 至 下 增加 。 这 值得 重复 一 下 : y 坐标 向 下 走 为 
增加 , 你 可 能 还 记得 数学 课 上 使 用 的 y 坐标, 与 此 相反 。 图 19-1 所 示 为 这 个 坐标 系统 的 工作 方式 。 间 上 
pillow 中 的 许多 函数 和 方法 需要 一 个 “矩形 元 组 ”参数 。 这 意味 着 pillow 需要 一 个 4 
个 整数 坐标 的 元 组 ， 用 于 表示 图 像 中 的 一 个 矩形 区 域 。4 个 整数 按 顺 序 分 别 如 下 。 


358 第 19 章 操作 图 像 


口 左 : 该 矩形 的 最 左边 的 x 坐标 。 

口 顶 : 该 矩形 的 项 边 的 坐标 。 

D 右 : 该 矩形 的 最 右边 一 个 像素 的 x 坐标 。 此 整数 必须 比 左边 整数 大 。 

口 底 : 该 矩形 的 底 边 一 个 像素 的 > 坐标。 此 整数 必须 比 顶 边 整 数 大 。 

注意 ， 该 矩形 包括 左 和 顶 坐 标 ， 直 到 但 不 包括 在 和 底 坐 标 。 例 如 ， 和 矩形 元 组 (3, 1, 9, 6) 
表示 图 19-2 所 示 的 黑色 矩形 的 所 有 像素 。 


x 递增 人 


(27,26) 
图 19-1 27 像素 x 26 像素 的 图 像 的 x 和 图 19-2 ”由 和 矩形 元 组 (3, 1, 9, 6 ) 
y 坐标 ， 某 种 古老 的 数据 存储 装置 表示 的 区 域 


19.2 用 pillow 操作 图 像 


既然 知道 了 pillow 中 颜色 和 坐标 的 工作 方式 ， 就 让 我 们 用 pillow 来 处 理 图 像 。 图 19-3 
所 示 的 图 像 将 用 于 本 章 中 所 有 交互 式 环境 的 例子 。 你 可 以 从 异步 社区 本 书 对 应 页 面 中 下 载 它 。 


~ 『 守 者 有 ~、 和 
a 
é 中 Am ' -全 人 .es 虽 
2 Ke 入、 ; 这 天 太守 世 in ~、 YY ss WU 
[5.55 Fs " SV ¢ s Ess Dh By 8 Se- - 


图 19-3 我 的 猫 Zophie。 照 片上 看 起 来 增加 了 10 磅 (对 猫 来 说 很 多 ) 
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将 图 像 文件 zophie.png 放 在 当前 工作 目录 中 ， 你 就 可 以 将 Zophie 的 图 像 加 载 到 Python 中 ， 
像 这 样 : 


>>> from PIL import Image 
>>> catIm = Image.0 


要 加 载 图 像 , 就 从 pillow 导入 Image 模块 , 并 调用 Image . open()，, 传 入 图 像 的 文件 名 。 
然后 ， 可 以 将 加 载 的 图 像 保存 在 catIm 这 样 的 变量 中 。pillow 的 模块 名 称 是 PIL， 这 保持 了 
老 模 块 Python Imaging Library 的 向 后 兼容 ， 这 就 是 为 什么 必须 执行 from PIL import 
Image， 而 不 是 执行 from Pillow import Image。 由 于 pillow 的 创建 者 设计 pillow 模 
块 的 方式 ， 你 必须 使 用 from PIL import Image 形式 的 import 语句 ， 而 不 是 简单 地 执行 
import PIL。 

如 果 图 像 文件 不 在 当前 工作 目录 ， 就 调用 os .chdir() 函 数 ， 将 工作 目录 变 为 包含 图 像 文 
件 的 文件 夹 : 


>>> import os 
>>> os.chdir('C:\\folder with image file') 


Image .open() 函 数 的 返回 值 是 Image 对 象 数据 类 型 , 它 是 pillow 将 图 像 表示 为 Python 
值 的 方法 。 可 以 调用 Image.open() 方 法 ， 传 入 文件 名 字符 串 ， 从 一 个 图 像 文件 〈 任 何 格式 ) 
加 载 一 个 Image 对 象 。 调 用 save ( ) 方 法 , 对 Image 对 象 的 所 有 更 改 都 可 以 保存 到 图 像 文件 中 
(也 是 任何 格式 )。 所 有 的 旋转 、 调 整 大 小 、 裁 前 、 绘 画 和 其 他 图 像 操 作 ， 都 通过 这 个 Image 对 
象 上 的 方法 调用 来 完成 。 

为 了 让 本 章 的 例子 更 简短 ， 我 假定 你 已 导入 了 pillow 的 Image 模块 ， 并 将 Zophie 的 图 
像 保存 在 了 变量 catIm 中 。 要 确保 zophie.png 文件 在 当前 工作 目录 中 , 让 Image .open( ) 函数 
能 找到 它 。 否 则 ， 必 须 在 Image .open( ) 的 字符 串 参数 中 指定 完整 的 绝对 路 径 。 


19.2.1 ”处理 Image 数据 类 型 


Image 对 象 有 一 些 有 用 的 属性 ， 提 供 了 加 载 的 图 像 文件 的 基本 信息 : 它 的 宽度 和 高 度 、 文 
件 名 和 图 像 格 式 〈 如 JPEG、GIF 或 PNG )。 
例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import Image 

>>> CatIm = Image.open('zophie.png') 
>>> catIm.size 

(816，1088) 

>>> width, height = catIm.size 

>>> Width 


©@ >>> height 
8 


>>> catIm.filename 

“Zophie .png' 

>>> CatIm.format 

"PNG 

>>> catIm.format description 
'Portable network graphics， 
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© >>> catIm.save('zophie.jpg') 


从 zophie.png 得 到 一 个 Image 对 象 并 将 其 保存 在 catIm 中 后 ,我 们 可 以 看 到 该 对 象 的 Size 
属性 是 一 个 元 组 ,包含 该 图 像 的 宽度 和 高 度 的 像素 数 @。 我 们 可 以 将 元 组 中 的 值 赋 给 width 和 
height 变量 @, 以 便 分 别 访问 宽度 旧 和 高 度 @ .filename 属性 描述 了 原始 文件 的 名 称 .format 
和 format_description 属性 是 字符 串 , 描述 了 原始 文件 的 图 像 格 式 (format_description 
比较 详细 )。 

最 后 ， 调 用 save() 方 法 ， 传 入 'zophie.jpg'， 将 新 图 像 以 文件 名 zophie.jpg 保存 到 硬盘 上 
@。pillow 看 到 文件 扩展 名 是 .jpg， 就 自动 使 用 JPEG 图 像 格式 来 保存 图 像 。 现 在 硬盘 上 应 该 有 两 
个 图 像 : zophiepng 和 zophiejpg。 虽 然 这 些 文件 都 基于 相同 的 图 像 , 但 它们 不 一 样 , 因为 格式 不 同 。 

pillow 还 提供 了 Image.new( ) 函数 ， 它 返回 一 个 Image 对 象 。 这 很 像 Image .open()， 
不 过 Image .new( ) 返 回 的 对 象 表 示 空 白 的 图 像 。Image .new( ) 的 参数 如 下 。 

口 字符 串 'RGBA' ， 将 颜色 模式 设置 为 RGBA (还 有 其 他 模式 ， 但 本 书 没有 涉及 )。 

口 大 小 ， 是 两 个 整数 元 组 ， 作 为 新 图 像 的 宽度 和 高 度 。 

口 图 像 开 始 采 用 的 背景 颜色 ， 是 一 个 表示 RGBA 值 的 4 整数 元 组 。 你 可 以 用 ImageColor. 
getcolor() 函 数 的 返回 值 作为 这 个 参数 。 男 外 ，Image .new( ) 也 支持 传 入 标准 颜色 名 
称 的 字符 串 。 

例如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import Image 

@ >>> im = Image.new('RGBA', (100, 200), 'purple') 
>>> im.save('purpleIimage.png') 

© >>> im2 = Image.new('RGBA', (20, 20)) 
>>> im2.save( transparentImage.png') 


这 里 ， 我 们 创建 了 一 个 Image 对 象 ， 它 有 100 像素 宽 、200 像素 高 ， 囊 有 紫色 背景 O。 然 
后 ， 该 图 像 存 入 文件 purpleImage.png 中 。 我 们 再 次 调用 Image .new() ， 创 建 另 一 个 Image 对 
象 ， 这 次 传 入 (20, 20) 作为 大 小 ， 没 有 指定 背景 色 @。 如 果 未 指定 颜色 参数 ， 默 认 的 颜色 是 
不 可 见 的 黑色 (0, 0,0,0)， 因 此 第 二 个 图 像 具有 透明 背景 ， 我 们 将 这 个 20 像素 x20 像素 的 透明 
正方 形 存 入 transparentImage.png。 


19.2.2 ”裁剪 图 像 


“ 裁 前 ?图 像 是 指 在 图 像 内 选择 一 个 矩形 区 域 , 并 删除 矩形 之 外 的 一 切 .Image 对 象 的 crop() 
方法 接收 一 个 矩形 元 组 ， 并 返回 一 个 Image 对 象 ， 以 表示 裁剪 后 的 图 像 。 裁 芍 不 是 在 原 图 上 友 
生 的 , 也 就 是 说 , 原始 的 Image 对 象 原 封 不 动 ， crop() 方 法 返回 一 个 新 的 Image 对 象 。 请 记 住 ， 
矩形 元 组 〈 这 里 就 是 要 裁剪 的 区 域 ) 包括 左 列 和 项 行 的 像素 ， 直 人 至 但 不 包括 右 列 和 底 行 的 像 条 。 

在 交互 式 环 浇 中 输入 以 下 代码 : 

>>> from PIL import Image 

>>> catIm = Image.open('zophie.png') 


>>> CroppedIm = catIm.crop((335, 345, 565, 560)) 
>>> croppedIm.save('cropped.png') 


这 将 得 到 一 个 新 的 Image 对 象 ， 它 是 裁 前 后 的 图 像 ， 保 存在 croppedIm 中 。 然 后 调 


19.2 用 pillow 操作 图 像 361 


用 croppedIm 的 save(),， 将 裁剪 后 的 图 像 存 入 cropped.png。 新 文件 cropped.png 从 原始 图 像 
创建 ， 如 图 19-4 所 示 。 
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图 19-4 新 图 像 只 有 原始 图 像 裁 前 后 的 部 分 


19.2.3 ”复制 和 粘贴 图 像 到 其 他 图 像 


copy( ) 方 法 返回 一 个 新 的 Image 对 象 ， 它 和 原来 的 Image 对 象 具有 一 样 的 图 像 。 如 果 需 要 修 
改 图 像 ， 同 时 也 希望 保持 原 有 的 版 本 不 变 ， 该 方法 非常 有 用 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import Image 
>>> catIm = Image.open('zophie.png') 
>>> CatCopyIm = catIm.copy() 


catIm 和 catCopyIm 变量 包含 了 两 个 独立 的 Image 对 象 ， 它 们 的 图 像 相 同 。 既 然 
catCopyIm 中 保存 了 一 个 Image 对 象 ， 那 么 你 可 以 随意 修改 catCopyIm， 将 它 存 入 一 个 新 的 
文件 名 ， 而 zophie.png 没有 改变 。 例 如 ， 让 我 们 尝试 用 paste( ) 方 法 修改 catCopyIm。 

paste() 方 法 在 Image 对 象 上 调用 ， 将 另 一 个 图 像 粘贴 在 它 上 面 。 我 们 继续 演示 交互 式 环 
境 的 例子 ， 将 一 个 较 小 的 图 像 粘 贴 到 catCopyIm: 


>>> faceIm = catIm.crop((335，345，565，560) ) 
>>> faceIm.Size 

(230， 215) 

>>> catCopyIim.paste(faceIm, (0, 0)) 

>>> catCopyIm.paste(faceIim, (400, 500)) 

>>> catCopyIm.save('pasted.png') 


首先 我 们 向 crop( ) 传 入 一 个 矩形 元 组 ， 指 定 zophie.png 中 的 一 个 矩形 区 域 ， 该 区 域 包含 
Zophie 的 脸 。 这 将 创建 一 个 Image 对 象 , 表示 230 像素 x215 像素 的 裁剪 区 域 , 被 保存 在 faceIm 
中 。 现 在 , 我 们 可 以 将 faceIm 粘贴 到 catCopyIm。 paste() 方 法 有 两 个 参数 : 一 个 “ 源 ”Image 
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对 象 ; 一 个 包含 x 和 y 坐标 的 元 组 ， 指 明 源 Image 对 象 粘贴 到 主 Image 对 象 时 左上 和 角 的 位 置 。 这 
里 ， 我 们 在 catCopyIm 上 两 次 调用 paste()， 第 一 次 传 入 (0，0)， 第 二 次 传 入 (400，500 ) 。 
这 将 faceIm 两 次 粘贴 到 catCopyIm: 一 次 faceIm 的 左上 角 在 (0，0)， 一 次 faceIm 的 左上 角 
在 (400，500) 。 最 后 ， 我 们 将 修改 后 的 catCopyIm 存 入 pasted.png。 图 19-5 所 示 为 pasted.png。 


注意 : 尽管 名 称 是 copy ( ) 和 paste()， 但 Pillow 中 的 方法 不 使 用 计算 机 的 剪贴 板 。 


请 注意 ，paste( ) 方 法 在 原 图 上 修改 它 的 Image 对 象 ， 它 不 会 返回 粘贴 后 图 像 的 Image 
对 象 。 如 果 想 调用 paste() ， 又 要 保持 原始 图 像 的 未 修改 版 本 ， 就 需要 先 复制 图 像 ， 然 后 在 副 
本 上 调用 paste()。 

假定 要 用 Zophie 的 头 平 铺 整个 图 像 ， 如 图 19-6 所 示 ， 可 以 用 两 个 for 循环 来 实现 这 个 效 
果 。 继 续 交 互 式 环境 的 例子 ， 输 入 以 下 代码 : 


>>> catImWidth, catImHeight = catIim.size 
>>> faceIimWidth, faceIimHeight = faceIm.size 
©@ >>> catCopyTiwo = catIim.copy() 
© >>> for left in range(0, catIimWidth, faceImWidth): 
© for top in range(0, catImHeight, faceImHeight): 
print(left, top) 
catCopyTwo.paste(faceIm, (left, top)) 


230 215 

--SNip— 

690 860 

690 1075 

>>> catCopyTwo.save('tiled.png') 


图 19-5 猫 Zophie， 包 含 图 19-6” 藤 套 的 for 循环 与 paste()， 
两 次 粘贴 它 的 脸 用 于 复制 猫 脸 ( 可 以 称 之 为 dupli-cat ) 
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这 里 ， 我 们 将 catIm 的 高 度 和 宽度 保存 在 catImWidth 和 catImHeight 中 。 在 @ 行 , 我 
们 得 到 了 catIm 的 副本 ， 并 保存 在 catCopyTwo。 既 然 有 了 一 个 副本 可 以 粘贴 ， 我 们 就 开始 循 
环 , 将 faceIm 粘 贴 到 catCopyTwo。 外 层 for 循环 的 left 变 量 从 0 开始 , 增 量 是 faceImWidth 
《 即 230) @。 内 层 for 循环 的 top 变量 从 0 开始 ， 增 量 是 faceImHeight ( 即 215) @。 这 些 
仍 套 的 for 循环 生成 了 left 和 top 的 值 ， 将 faceIm 图 像 按照 网 格 粘贴 到 Image 对 象 
catCopyTwo， 如 图 19-6 所 示 。 为 了 看 到 峰 套 循环 的 工作 过 程 ， 我 们 输出 了 left 和 top。 粘 
贴 完成 后 ， 我 们 将 修改 后 的 catCopyTwo 保存 到 tiled.png。 


19.2.4 ”调整 图 像 大 小 


resize() 方 法 在 Image 对 象 上 调用 ， 返回 指定 宽度 和 高 度 的 一 个 新 Image 对 象 。 它 接收 
两 个 整数 的 元 组 作为 参数 ， 表 示人 返回 图 像 的 新 高 度 和 宽度 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import Image 
>>> CatIm = Image.open('zophie.png') 
© >>> width, height = catIm.size 
© >>> quartersizedIm = catIm.resize((int(width / 2), int(height / 2))) 
>>> quartersizedIm.save('quartersized.png') 
>>> SVelteIm = catIm.resize((width, height + 300)) 
>>> svelteIm.save('svelte.png') 


这 里 ， 我 们 将 catIm.size 元 组 中 的 两 个 值 赋 给 变量 width 和 height@。 使 用 width 
和 height， 而 不 是 catIm.size[0] 和 catIm.size[1]， 这 可 以 让 接 下 来 的 代码 更 易 读 。 

第 一 个 resize() 调 用 传 入 int (width / 2) 作 为 新 宽度 ， 传 入 int (height / 2) 作 为 
新 高 度 @， 因 此 resize() 返 回 的 Image 对 象 具 有 原始 图 像 的 一 半 长 度 和 宽度 ， 是 原始 图 像 大 
小 的 1/4。resize() 方 法 的 元 组 参数 中 只 允许 使 用 整数 ， 这 就 是 为 什么 需要 调用 int () 对 两 个 
除 以 2 的 值 取 整 。 

这 个 大 小 调整 保持 了 相同 比例 的 宽度 和 高 度 ， 但 传 入 resize() 的 新 宽度 和 高 度 不 必 与 原 
始 图 像 成 比例 。svelteIm 变量 保存 了 一 个 Image 对 象 ， 宽 度 与 原始 图 像 相 同 ， 但 高 度 增加 了 
300 像素 人 @@， 让 Zophie 显得 更 苗条 。 

请 注意 ，resize() 方 法 不 会 在 原 图 上 修改 Image 对 象 ， 而 是 返回 一 个 新 的 Image 对 象 。 


19.2.5 ”旋转 和 翻转 图 像 


图 像 可 以 用 rotate () 方 法 旋转 ， 该 方法 返回 旋转 后 的 新 Image 对 象 ， 并 保持 原始 Image 
对 象 不 变 。rotate() 的 参数 是 一 个 整数 或 浮 点 数 ， 表 示 图 像 逆 时 针 旋 转 的 度数 。 在 交互 式 环 
境 中 输入 以 下 代码 : 

>>> from PIL import Image 


>>> CatIm = Image.open('zophie.png') 
>>> catIm.rotate(90).save('rotated90.png') 


>>> catIm.rotate(180).save('rotated180.png') 
>>> catIm.rotate(270).save('rotated270.png') 


注意 ， 可 以 “ 链 式 ” 调 用 方法 ， 对 rotate( ) 返 回 的 Image 对 象 直接 调用 save ( ) 。 第 一 
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个 rotate() 和 save() 调 用 得 到 一 个 逆 时 针 旋 转 90 度 的 新 Image 对 象 , 并 将 旋转 后 的 图 像 存 
入 rotated90.png。 第 二 个 和 第 三 个 调用 做 的 事情 一 样 , 但 旋转 了 180 度 和 270 度 。 结 果 如 图 19-7 
所 示 。 
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19-7 原始 图 像 ( 左 ) 和 逆 时 针 旋 转 90 度 、180 度 和 270 度 的 图 像 


注意 ， 当 图 像 旋 转 90 度 或 270 度 时 ， 宽 度 和 高 度 会 变化 。 如 果 旋 转 其 他 和 角度， 图像 会 保持 
原始 尺寸 。 在 Windows 操作 系统 上 ， 使 用 黑色 的 背景 来 填补 旋转 造成 的 缝 除 。 在 macOS 上 ， 
使 用 透明 的 像素 来 填补 颖 际 。 

rotate( ) 方 法 有 一 个 可 选 的 expand 关键 字 参 数 , 如 果 设 置 为 True, 就 会 放大 图 像 的 
尺寸 ， 以 适应 整个 旋转 后 的 新 图 像 。 例 如 ， 在 交互 式 环境 中 输入 以 下 代码 : 


>>> catIim.rotate(6).save('rotated6.png') 
>>> catIm.rotate(6, expand=True).save('rotated6 expanded.png') 


第 一 次 调用 将 图 像 旋转 6 度 ， 并 存 入 rotate.png《〈 人 参见 图 19-8 所 示 的 左边 的 图 像 )。 第 二 次 
调用 将 图 像 旋 转 6 度 ，expand 设置 为 True， 并 存 入 rotate6 expanded.png〔 如 图 19-8 所 示 的 
右 侧 的 图 像 )。 


图 19-8 ”图 像 普通 旋转 6 度 ( 左 )， 以 及 使 用 expand=True ( 右 ) 


利用 transpose() 方 法 ， 还 可 以 将 图 像 “ 镜 像 翻 转 ?。 必 须 向 transpose() 方 法 传 入 
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Image.FLIP_LEFT_RIGHT 或 Image.FLIP TOP_BOTTOM。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> catIm.transpose(Image.FLIP LEFT RIGHT).save('horizontal flip .png') 
>>> catIm.transpose(Image.FLIP TOP BOTTOM).save('vertical flip.png') 


像 rotate() 一 样 ,transpose() 会 创建 一 个 新 Image 对 象 . 这 里 我 们 传 入 Image.FLIP 
LEFT_RIGHT， 让 图 像 水 平 翻转 ， 然 后 存 入 _ horizontal flip.png。 要 垂直 翻转 图 像 ， 请 传 入 


19.2.6 更改 单个 像素 


单个 像素 的 颜色 可 以 通过 getpixel() 方 法 和 putpixel( ) 方 法 取得 和 设置 。 它 们 都 接收 
一 个 元 组 ， 表 示 像 素 的 x 和 y 坐标 。putpixel() 方 法 还 接收 一 个 元 组 ， 作 为 该 像素 的 颜色 。 
这 个 颜色 参数 是 4 整数 RGBA 元 组 或 3 整数 RGB 元 组 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import Image 
@ >>> im = Image.new('RGBA', (100, 100)) 
@ >>> im.getpixel((0, 0)) 
(0, 0, 0, 0) 
© >>> for x in range(100): 
for y in range(50): 
9 im.putpixel((x, y), (210, 210,，210)) 


>>> from PIL import ImageColor 
© >>> for x in range(100): 
for y in range(50, 100): 
© im.putpixel((x, y), ImageColor.getcolor('darkgray', 'RGBA')) 
>>> im.getpixel((0， 0)) 
(210, 210, 210。 '2565) 
>>> im.getpixel((0, 50)) 
(169, 169, 169, 255) 
>>> im.save('putPixel.png') 


在 @ 行 ， 我 们 得 到 一 个 新 图 像 ， 这 是 一 个 100 像素 x100 像素 的 透明 正方 形 。 对 一 些 坐 标 调用 
getpixel() 将 返回 (0，0，0，0)， 因 为 图 像 是 透明 的 @。 要 给 图 像 中 的 像素 上 色 ， 我 们 可 以 
使 用 骨 套 的 for 循环 ， 遍 历 图 像 上 半 部 分 的 所 有 像素 @， 用 putpixel() 设 置 每 个 像素 的 颜色 
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@。 这 里 我 们 向 putpixel() 传 入 RGB 元 组 (210，210，210)， 即 浅 灰 色 。 

假定 我 们 希望 图 像 下 半 部 分 是 深 灰色 ， 但 不 知道 深 灰 色 的 RGB 元 组 。 本 \ 接 收 
'darkgray' 这 样 的 标准 颜色 名 称 ， 因 此 必须 使 用 ImageColor. 
getcolor ( ) 来 获得 'darkgray ' 的 颜色 元 组 。 循 环 遍历 图 像 的 下 半 部 分 
像素 @， 向 putpixelL() 传 入 ImageColor .getcolor() 的 返回 值 @9， 你 
现在 应 该 得 到 一 个 图 像 , 上 半 部 分 是 浅 灰 色 , 下 半 部 分 是 深 灰 色 , 如 图 19-10 
所 示 。 可 以 对 一 些 坐 标 调 用 getpixel(), 确认 指定 像素 的 颜色 符合 你 的 
期 望 。 最 后 ， 将 图 像 存 入 putPixel.png。 

当然 ， 在 图 像 上 一 次 绘制 一 个 像素 不 是 很 方便 。 如 果 需 要 绘制 形状 ， 图 19-10 putPixel.png 
就 使 用 本 章 稍 后 介绍 的 ImageDraw 模块 。 中 的 图 像 


19.3 项目 : 添加 徽标 


假设 你 有 一 项 无 聊 的 工作 ， 要 调整 数 千 张 图 片 的 大 小 ， 并 在 每 张 图 片 的 角 上 增加 一 个 小 征 
标 水 印 。 使 用 基本 的 图 形 程序 , 如 Paintbrush 或 Paint, 完成 这 项 工作 需要 很 长 时 间 。 像 Photoshop 
这 样 的 应 用 程序 可 以 批量 处 理 ， 但 这 个 软件 要 花 几 百 美 元 。 让 我 们 写 一 个 脚本 来 完成 工作 。 

假定 图 19-11 所 示 是 要 添加 到 每 个 图 像 右 下 角 的 标识 : 带 有 白色 边框 的 黑 猫 图 标 ， 图 像 的 
其 余部 分 是 透明 的 。 

总 的 来 说 ， 程 序 应 该 完成 以 下 任务 。 

口 载 入 徽标 图 像 。 

口 循环 遍历 工作 目标 中 的 所 有 .png 和 .jpg 文件 。 

口 检查 图 片 是 否 宽 于 或 高 于 300 像素 。 

口 如 果 是 ， 将 宽度 或 高 度 中 较 大 的 一 个 减 小 为 300 像素 ， 并 按 

比例 缩小 另 一 维度 。 

口 在 角 上 粘贴 徽标 图 像 。 

口 将 改变 的 图 像 存 入 男 一 个 文件 夹 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

口 打开 catlogo.png 文件 将 其 作为 Image 对 象 。 

口 循环 遍历 os .1istdir('.') 返 回 的 字符 串 。 

口 通过 size 属性 取得 图 像 的 宽度 和 高 度 。 

口 计算 调整 后 图 像 的 新 高 度 和 宽度 。 

口 调用 resize() 方 法 来 调整 图 像 大 小 。 

口 调用 paste() 方 法 来 粘贴 徽标 。 

口 调用 save( ) 方 法 保存 更 改 ， 使 用 原来 的 文件 名 。 


第 1 步 : 打开 徽标 图 像 
针对 这 个 项 目 ， 打开 一 个 新 的 文件 编辑 器 窗口 ， 输 入 以 下 代码 ， 并 保存 为 resizeAndAddLogo.py: 


图 19-11 添加 到 图 像 中 的 徽标 
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#! python3 
# resizeAndAddLogo.py - Resizes all images in current working directory to fit 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 


import os 
from PIL import Image 


© SQUARE FIT SIZE = 300 

@ LOGO FILENAME = 'catlogo.png' 
© 

© 


logoIm = Image.open(LOGO FILENAME) 
logoWidth, logoHeight = logolIm.size 


# TODO: Loop over all files in the working directory. 

# TODO: Check if image needs to be resized. 

# TODO: Calculate the new width and height to resize to. 
# TODO: Resize the image. 

# TODO: Add the logo. 


# TODO: Save changes. 


在 程序 开始 时 设置 SQUARE_FIT_SIZE@ 和 LOGO_FILENAME@ 常 量 , 这 让 程序 以 后 更 容易 
修改 。 假 定 你 要 添加 的 徽标 不 是 猫 图 标 ， 或 者 假定 将 输出 图 像 的 最 大 尺寸 减少 到 300 像素 。 有 
了 程序 开始 时 定义 的 这 些 常量 ， 你 可 以 打开 代码 ， 修 改 一 下 这 些 值 ， 就 大 功 告 成 了 〈 或 者 你 可 
以 让 这 些 常量 的 值 从 命令 行 参数 获得 )。 没 有 这 些 常量 ， 就 要 在 代码 中 寻找 所 有 的 300 和 
'cat1ogo.png'， 将 它们 替换 为 新 项 目的 值 。 总 之 ， 使 用 常量 可 以 使 程序 更 加 通用 。 

徽标 Image 对 象 从 Image .open() 返 回 @, 为 了 增强 可 读 性 , 1ogoWidth 和 logoHeight 
被 赋予 lo0goIm.size 中 的 值 @。 

该 程序 的 其 余部 分 目前 是 T0D0 注释 ， 说 明了 程序 的 框架 。 


第 2 步 : 遍历 所 有 文件 并 打开 图 像 


现在 ， 需 要 找到 当前 工作 目录 中 的 每 个 .png 文件 和 .jpg 文件 。 请 注意 ， 你 不 希望 将 徽标 图 
像 装 加 到 征 标 图 像 本 身 ， 所 以 程序 应 该 跳 过 所 有 名 为 LOG0 FILENAME 的 图 像 文件 。 在 程序 中 
添加 以 下 代码 : 


#! python3 
# resizeAndAddLogo.py - Resizes all images in current working directory to fit 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 


import os 
from PIL import Image 


-- SN1ip-- 


os.makedirs('withLogo', exist ok=True) 
# Loop over all files in the working directory. 
0 for filename in os.listdir('.'): 
© if not (filename.endswith('.png') or filename.endswith('.jpg')) \ 
or filename == L060_FILENAME : 


368 第 19 章 操作 图 像 


© continue # Skip non-image files and the logo file itself 


@ im = Image.open(filename) 
width, height = im.size 


--SNip-- 


首先 ，os .makedirs( ) 调 用 创建 了 一 个 文件 夹 withLogo， 用 于 保存 完成 的 带 有 微 标的 图 
像 ， 而 不 是 覆盖 原始 图 像 文件 。 关 键 字 参数 exist_ok=True 将 防止 0s .makedirs() 在 
withLogo 已 存在 时 抛 出 异常 。 在 用 os .1istdir('.') 遍 历 工作 目录 中 的 所 有 文件 时 @， 较 长 
的 if 语句 @ 检 查 每 个 filename 是 否 以 .png 或 .jpg 结束 。 如 果 不 是 ,或 者 该 文件 是 徽标 图 像 本 
身 ， 循 环 就 跳 过 它 ， 使 用 continue@ 去 处 理 下 一 个 文件 。 如 果 filename 确实 以 ' .png ' 或 
' .jpg' 结束 (而 且 不 是 徽标 文件 ), 就 将 它 打 开 为 一 个 Image 对 象 @, 并 设置 width 和 height。 


第 3 步 : 调整 图 像 的 大 小 


只 在 有 宽度 或 高 度 超过 SQUARE _FIT_SIZE 时 〈 在 这 个 例子 中 ， 是 300 像素 )， 该 程序 才 
应 该 调整 图 像 的 大 小 ， 因 此 将 所 有 调整 大 小 的 代码 放 在 一 个 检查 width 和 height 变量 的 if 
语句 内 。 在 程序 中 添加 以 下 代码 : 

#! python3 


# resizeAndAdoLogo.py - Resizes all images in current working directory to fit 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 


import 0S 
from PIL import Image 


~-SNip-- 


# Check if image needs to be resized. 
if width > SQUARE FIT SIZE and height > SQUARE FIT SIZE: 
# Calculate the new width and height to resize to. 
if width > height: 
© height = int((SQUARE FIT SIZE / width) * height) 
width = SQUARE FIT SIZE 
else: 
@ width = int((SQUARE FIT SIZE / height) * width) 
height = SQUARE FIT SIZE 


# Resize the image. 


print('Resizing %s...' % (filename)) 
© im = im.resize( (width, height)) 


--SNiD-- 

如 果 确 实 需 要 调整 图 像 大 小 , 就 需要 弄 清楚 它 是 太 宽 还 是 太 高 。 如 果 width 大 于 height， 
则 高 度 应 该 根据 宽度 同比 例 减 小 @。 这 个 比例 是 当前 宽度 除 以 SQUARE_FIT_SIZE 的 值 。 新 的 
高 度 值 是 这 个 比例 乘 以 当前 高 度 值 。 由 于 除法 运算 符 返 回 一 个 浮 点 值 ， 而 resize() 要 求 的 尺 
寸 是 整数 ， 因 此 要 记得 将 结果 用 int() 函 数 转换 成 整数 。 最 后 ， 新 的 width 值 融 设置 为 
SQUARE FIT SIZE. 

如 果 height 大 于 或 等 于 width (这 两 种 情况 都 在 else 子 句 中 处 理 )， 那 么 进行 同样 的 计 
算 ， 只 是 交换 height 和 width 变量 的 位 置 @。 
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在 width 和 height 包含 新 图 像 尺 寸 后 ， 将 它们 传 入 resize() 方 法 ， 并 将 返回 的 Image 
对 象 保存 在 im 中 @。 


第 4 步 : 添加 徽标 ， 并 保存 更 改 


不 论 图 像 是 否 调整 大 小 ， 徽 标 都 应 粘贴 到 图 像 右 下 角 。 徽 标 粘 贴 的 确切 位 置 取决 于 图 像 的 
大 小 和 徽标 的 大 小 。 图 19-12 展示 了 如 何 计算 粘贴 的 位 置 。 粘 贴 微 标 的 左 坐 标 将 是 图 像 宽度 减 
去 徽标 宽度 ， 顶 坐标 将 是 图 像 高 度 减 去 徽标 高 度 。 

用 代码 将 徽标 粘贴 到 图 像 中 后 ， 应 保存 修改 后 的 Image 对 象 。 将 以 下 代码 添加 到 程序 中 : 


#! python3 
# resizeAndAddLogo.py - Resizes all images in current working directory to fit 
# in a 300x300 square, and adds catlogo.png to the lower-right corner. 


import os 
from PIL import Image 


- -SNip-- 


# Check if image needs to be resized. 
--SNip-- 


# Add the logo. 
Oo print('Adding logo to %s...' % (filename)) 
@ im.paste(logoIm, (width - logoWidth, height - logoHeight), logoIm) 


# Save changes. 
© im.save(os.path.ijoin('withLogo', filename)) 


图 像 宽度 


图 像 高 度 


图 19-12 在 右 下 角 放 置 徽 标 ， 左 坐标 和 顶 坐 标 应 该 是 图 像 宽 度 /高 度 减 去 微 标 宽度 /高 度 


新 的 代码 输出 一 条 消息 , 告诉 用 户 微 标 已 被 加 入 O@，, 将 1ogoIm 粘贴 到 im 中 计算 的 坐标 处 
@， 并 将 变更 保存 到 withLogo 目录 的 filename 中 四。 如 果 运 行 这 个 程序 ，zophie.png 文件 是 
工作 目录 中 唯一 的 图 像 ， 输 出 结果 会 是 这 样 : 


Resizing zophie.png... 
Adding logo to zophie.png... 


图 像 zophie.png 将 变 成 225 像素 x300 像素 的 图 像 ， 如 图 19-13 所 示 。 请 记 住 ， 如 果 没 有 伟 
入 l0goInm 作为 第 三 个 参数 ， 那 么 paste( ) 方 法 不 会 粘贴 透明 的 像素 。 这 个 程序 可 以 在 短 短 几 
分 钟 内 自动 调整 几 百 幅 图 像 ， 并 “加 上 徽标 ”。 
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图 19-13 图像 zophie.png 调整 了 大 小 并 加 上 了 徽标 ( 左 )。 如 果 忘 记 了 第 三 个 参数 ， 
徽标 中 透明 的 像素 将 被 复制 为 不 透明 的 白色 像素 ( 右 ) 


第 5 步 : 类 似 程序 的 想法 


能 够 批量 合成 图 像 或 修改 图 像 大 小 的 功能 ， 在 许多 应 用 中 都 有 用 。 可 以 编写 类 似 的 程序 来 
完成 以 下 任务 。 

口 为 图 像 添加 文字 或 网 站 URL。 

口 为 图 像 添加 时 间 惟 。 

口 根据 图 像 的 大 小 ， 将 图 像 复 制 或 移动 到 不 同 的 文件 夹 中 。 

口 为 图 像 添 加 一 个 几乎 透明 的 水 印 ， 防 止 他 人 复制 。 


19.4 ”在 图 像 上 绘画 


如 果 需 要 在 图 像 上 画 线 、 画 矩形 、 男 圆 形 或 其 他 简单 形状 ， 束 用 pillow 的 ImageDraw 模 
块 。 在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import Image, ImageDraw 
>>> im = Image.new('RGBA', (200, 200), 'white') 
>>> draw = ImageDraw.Draw(im) 


首先 ， 我 们 导入 Image 和 ImageDraw。 然 后 ， 创 建 一 个 新 的 图 像 ， 在 这 个 例子 中 ， 创 建 
的 是 200 像素 X200 像素 的 白色 图 像 ， 将 这 个 Image etd im 中 。 我 们 将 该 Image 对 象 
传 入 ImageDraw.Draw() 函 数 ， 得 到 一 个 ImageDraw 对 象 。 这 个 对 象 有 一 些 方法 ， 可 以 在 
Image 对 象 上 绘制 形状 和 文字 。 将 ImageDraw 对 象 保存 在 变量 draw 中 , 这 样 就 能 在 接 下 来 的 
例子 中 方便 地 使 用 它 。 


19.4.1 绘制 形状 


下 面 的 ImageDraw 模块 的 方法 可 在 图 像 上 绘制 各 种 形状 。 这 些 方 法 的 fill 和 outline 
参数 是 可 选 的 ， 如 果 未 指定 ， 默 认 均 为 白色 。 
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所 


point(xy，Tfil1) 方 法 绘制 单个 像素 。xy 参数 表示 要 画 的 点 的 列表 。 该 列表 可 以 是 x 和 
坐标 的 元 组 的 列表 ， 例 如 [ (x，y)，(x，y)，...]; 或 是 没有 元 组 的 x 和 y 坐标 的 列表 ， 例 
如 [x1，y1，x2，y2，...]。fill 参数 是 点 的 颜色 ， 要 么 是 一 个 RGBA 元 组 ， 要 么 是 颜色 名 
称 的 字符 串 ， 如 ' red'。fill 参数 是 可 选 的 。 


线 


line (Xxy，fill, width) 方 法 绘制 一 条 线 或 一 系列 的 线 。xy 要 么 是 一 个 元 组 的 列表 ， 例 
如 [ (Xx，y)，(Xx，y)，...]， 要 么 是 一 个 整数 列表 ， 例 如 [x1，y1，x2，y2，...]。 每 个 


点 都 是 正在 绘制 的 线 上 的 一 个 连接 点 。 可 选 的 fill 参数 是 线 的 颜色 ， 是 一 个 RGBA 元 组 或 颜 
色 名 称 。 可 选 的 width 参数 是 线 的 宽度 ， 如 果 未 指定 ， 默 认 值 为 1。 
短 形 


rectangle(xy, fill, outline) 方 法 绘制 一 个 矩形 。xy 参数 是 一 个 矩形 元 组 ， 形 式 为 
(LIeft，top，right，bottom) 。1left 和 top 值 指 定 了 和 矩形 左上 角 的 x 和 y 坐标 ，right 
和 bottom 指定 了 算 形 的 右 下 角 的 x 和 yy 坐标 。 可 选 的 fill 参数 是 颜色 ， 将 填充 该 矩形 的 内 
部 。 可 选 的 outline 参数 是 矩形 轮廓 的 颜色 。 


椭圆 


ellipse(xy，fill，outline) 方 法 绘制 一 个 椭圆 。 如 果 椭 圆 的 长 轴 和 短 轴 一 样 ， 该 方 
法 将 绘制 一 个 圆 。xy 参数 是 一 个 矩形 元 组 (left，top，right，bottom)， 它 表示 正好 包含 
该 椭圆 的 矩形 。 可 选 的 fi11 参数 是 椭圆 内 的 颜色 ， 可 选 的 outline 参数 是 椭圆 轮廓 的 颜色 。 


多 边 形 


polygon(xy，Tfil1l，out1line) 方 法 绘制 任意 的 多 边 形 。xy 参数 是 一 个 元 组 列表 ， 例 如 
[(Xx，y)，(X，y)，...]; 或 者 是 一 个 整数 列表 ， 例 如 [x1，y1，x2，y2，...]， 表 示 多 
边 形 边 的 连接 点 。 最 后 一 对 坐标 将 自动 连接 到 第 一 对 坐标 。 可 选 的 fill 参数 是 多 边 形 内 部 的 
闫 色 ， 可 选 的 outline 参数 是 多 边 形 轮廓 的 颜色 。 

绘制 示例 


在 交互 式 环境 中 输入 以 下 代码 : 


>>> from PIL import Image, ImageDraw 
>>> im = Image.new('RGBA', (200, 200), 'white') 
>>> draw = ImageDraw.Draw(im) 
© >>> draw.line([(0, 0), (199, 0), (199, 199), (0, 199), (0, 0)], fill='black') 
© >>> draw.rectangle((20, 30, 60, 60), fill='blue'’) 
© >>> draw.ellipse((120, 30, 160, 60), fill='red') 
9 >>> draw.polygon(((57, 87), (79, 62), (94, 85), (120, 90), (103， 113))，, 
fill='brown') 
© >>> for i in range(100, 200, 10): 


372 第 19 章 操作 图 像 


draw.line([(1i, 0), (200, i - 100)], fill='green’') 


>>> im.save('drawing.png') 


为 200 像素 x200 像素 的 白色 图 像 生 成 Image 对 象 后 ， 将 
它 传 入 ImageDraw。Draw()， 获 得 ImageDraw 对 象 。 将 
ImageDraw 对 和 象 保存 在 draw 中 ,可 以 对 draw 调用 绘图 方法 。 
这 里 ， 我 们 在 图 像 边缘 画 上 罕 的 黑色 轮廓 @; 画 一 个 蓝 色 的 甜 
形 ， 左 上 角 在 〈20, 30)， 右 下 角 在 〈60, 60) @; 画 一 个 红色 
的 椭圆 ， 由 (120, 30) 到 (160, 60) 的 和 矩形 来 定义 目 ; 画 一 个 
棕色 的 多 边 形 ， 有 5 个 顶点 @， 以 及 一 些 绿 线 的 图 案 , 用 for 
循环 绘制 @。 得 到 的 drawing.png 文件 如 图 19-14 所 示 。 

ImageDraw 对 象 还 有 另外 几 个 绘制 形状 的 方法 , 读者 可 ”图 19-14 得 到 的 图 像 drawing png 
自行 查询 完整 的 技术 文档 。 


19.4.2 ”绘制 文本 


ImageDraw 对 象 还 有 text () 方 法 ， 用 于 在 图 像 上 绘制 文本 。text () 方 法 有 4 个 参数 : 
xy、text、fill 和 font。 

口 xy 参数 是 两 个 整数 的 元 组 ， 指 定 文本 区 域 的 左上 和 角 。 

口 text 参数 是 想 写 入 的 文本 字符 串 。 

口 可 选 参数 fill 是 文本 的 颜色 。 

口 可 选 参数 font 是 一 个 ImageFont 对 象 ， 用 于 设置 文本 的 字体 和 大 小 。 后 续 内 容 更 详 

细 地 介绍 了 这 个 参数 。 

因为 通常 很 难 预先 知道 一 块 文本 在 给 定 的 字体 下 的 大 小 ， 所 以 ImageDraw 模块 也 提供 了 
textsize() 方 法 。 它 的 第 一 个 参数 是 要 测量 的 文本 字符 串 ， 第 二 个 参数 是 可 选 的 ImageFont 
对 象 。textsize() 方 法 返回 一 个 两 整数 元 组 ， 表 示 在 以 指定 的 字体 写 入 图 像 时 文本 的 宽度 和 
高 度 。 可 以 利用 这 个 宽度 和 高 度 ， 来 精确 计算 文本 放 在 图 像 上 的 位 置 。 

text() 的 前 3 个 参数 非常 简单 。 在 用 text () 向 图 像 绘制 文本 之 前 ， 让 我 们 来 看 看 可 选 的 
第 四 个 参数 ， 即 ImageFont 对 象 。 

text() 和 textsize() 都 接收 可 选 的 ImageFont 对 象 作为 最 后 一 个 参数 。 要 创建 这 种 对 
象 ， 先 执行 以 下 命令 : 


>>> from PIL import ImageFont 


既然 已 经 导入 pillow 的 ImageFont 模块 ， 就 可 以 调用 ImageFont .truetype() 函 数 ， 它 
有 了 两 个 参数 。 第 一 个 参数 是 字符 串 ， 表 示 字 体 的 TrueType 文件 ,这 是 硬盘 上 实际 的 字体 文件 。 
TrueType 字体 文件 具有 .ttf 文件 扩展 名 ， 通 常 可 以 在 以 下 文件 夹 中 找到 。 

口 在 Windows 操作 系统 上 : C:\Windows\Fonts。 

口 在 macOS 上 : /Library/Fonts 和 /System/Library/Fonts。 

口 在 Linux 操作 系统 上 : /usr/share/fonts/truetype。 
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实际 上 并 不 需要 输入 这 些 路 径 作为 TrueType 字体 文件 的 字符 串 的 一 部 分 , 因为 Python 会 自动 在 
这 些 目 录 中 搜索 字体 。 如 果 无 法 找到 指定 的 字体 ，Python 会 显示 错误 。 

ImageFont .truetype() 的 第 二 个 参数 是 一 个 整数 ， 表 示 字 体 大 小 的 点 数 (而 不 是 像素 )。 请 
记 住 ，pillow 创建 的 PNG 图 像 默 认 是 每 英寸 72 像素 ， 一 点 是 1/72 英寸 。 

在 交互 式 环境 中 输入 以 下 代码 ， 用 你 的 操作 系统 中 实际 的 文件 夹 名 称 替 换 FONT_FOLDER: 


>>> from PIL import Image, ImageDraw, ImageFont 
>>> import os 
© >>> im = Image.new('RGBA'， (200, 200), 'white') 
四 >>> draw = ImageDraw.Draw(im) 
© >>> draw.text((20, 150), “Hello'， fill='purple') 
>>> fontsFolder = 'FONT FOLDER' # e.g。 ‘/Library/Fonts’ 
@ >>> arialFont = ImageFont.truetype(os.path.join(fontsFolder, 'arial.ttf'), 32) 
© >>> draw.text((100, 150), 'Howdy', fill='gray', font=arialFont) 
>>> im.savel('text.png') 


导入 Image、ImageDraw、ImageFont 和 os 后 ， 我 们 生成 一 个 Image 对 象 ， 它 是 新 的 
200 像素 x200 像素 白色 图 像 @， 并 通过 这 个 Image 对 象 得 到 一 个 ImageDraw 对 象 @。 我 们 使 
用 text() 在 (20, 150)〉 以 紫色 绘制 Hell0@。 在 这 次 text() 调 
用 中 , 我 们 没有 传 入 可 选 的 第 四 个 参数 ， 因 此 这 段 文 本 的 字体 和 大 
小 没有 定制 。 
要 设置 字体 和 大 小 , 我 们 首先 将 文件 夹 名 称 (如 /Library/Fonts) 
保存 在 fontsFolder 中 。 然后 调用 ImageFont .truetype()， 传 
入 我 们 想 要 的 字体 的 .ttf 文件 ; 之 后 是 表示 字体 大 小 的 整数 @。 将 
ImageFont.truetype() 返 回 的 Font 对 象 保存 在 arialFont 这 Hello 
样 的 变量 中 ， 然 后 将 该 变量 传 入 text ( ) ， 作 为 最 后 的 关键 字 参 数 。 
@ 行 的 text() 调 用 绘制 了 Howdy， 采 用 灰色 、32 点 Arial 字体 。 
得 到 的 text.png 文件 如 图 19-15 所 示 。 


Howdy 


图 19-15 ”得 到 的 图 像 text.png 


19.5 小结 


图 像 由 像素 的 集合 构成 , 每 个 像素 具有 表示 颜色 的 RGBA 值 , 可 以 通过 x 和 y 坐标 来 定位 。 
两 种 常见 的 图 像 格式 是 JPEG 和 PNG。pillow 模块 可 以 处 理 这 两 种 图 像 格式 和 其 他 格式 。 

当 图 像 被 加 载 为 Image 对 象 时 ， 它 的 宽度 和 高 度 作为 两 整数 元 组 ， 保 存在 size 属性 中 。 
Image 数据 类 型 的 对 象 也 有 一 些 方法 用 于 实现 常见 的 图 像 处 理 ， 方 法 有 crop()、copy()、 
paste()、resize()、rotate() 和 transpose()。 要 将 Image 对 象 保存 为 图 像 文 件 ， 就 调 
用 save() 方 法 。 

如 果 希 望 程序 在 图 像 上 绘制 形状 ， 就 使 用 ImageDraw 的 方法 绘制 点 、 线 、 和 矩形 、 椭 圆 和 
多 边 形 。 该 模块 也 提供 了 一 些 方法 ， 可 用 你 选择 的 字体 和 大 小 绘制 文本 。 

虽然 像 Photoshop 这 样 高 级 〈 且 昂贵 ) 的 应 用 程序 提供 了 自动 批量 处 理 功能 ， 但 你 可 以 用 
Python 脚本 免费 完成 许多 相同 的 修改 。 在 前 面 的 章节 中 , 你 编写 Python 程序 来 处 理 纯 文 本 文件 、 
电子 表格 、PDF 和 其 他 格式 。 利 用 pillow 模块 ， 你 已 将 编程 能 力 扩展 到 处 理 图 像 。 
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19.6 ”习题 


什么 是 RGBA 值 ? 
如 何 利用 pillow 模块 得 到 'CornflowerBlue' 的 RGBA 值 ? 
什么 是 矩形 元 组 ? 
哪个 函数 针对 名 为 zophie .png 的 图 像 文件 返回 一 个 Image 对 象 ? 
如 何 得 到 一 个 Image 对 象 的 图 像 的 宽度 和 高 度 ? 
6. 调用 什么 方法 会 得 到 一 个 100 像素 x100 像素 的 图 像 的 Image 对 象 ， 但 不 包括 它 左下 角 
的 1/4? 
7. 将 Image 对 象 修改 后 ， 如 何 将 它 保 存 为 图 像 文件 ? 
8. 什么 模块 包含 pillow 的 形状 绘制 代码 ? 
9. Image 对 象 没 有 绘制 方法 。 哪 种 对 象 有 ? 如 何 获得 这 种 类 型 的 对 象 ? 


19.7 ”实践 项 目 
作为 实践 ， 编 程 完成 以 下 任务 。 


19.7.1 扩展 和 修正 本 章 项 目的 程序 


本 章 的 resizeAndAddLogo.py 程序 使 用 PNG 和 JPEG 文件 , 但 pillow 还 支持 许多 格式 ,不仅 
仅 是 这 两 个 .扩展 resizeAndAddLogo.py,; 让 它 也 能 处 理 GIF 和 BMP 一 
图 像 。 

另 一 个 小 问题 是 ， 只 有 文件 扩展 名 为 小 写 时 ， 程 序 才 修改 
PNG 和 JPEG 文件 。 例 如 ， 它 会 处 理 zophie.png， 但 不 处 理 
zophie.PNG。 修 改 代 码 ， 让 文件 扩展 名 检查 不 区 分 大 小 写 。 

最 后 ， 添 加 到 右 下 角 的 徽标 本 来 只 是 一 个 小 标记 ， 但 如 果 
该 图 像 与 徽标 本 身 差 不 多 大 ， ihe 19-16。 修 改 
resizeAndAddLogo.py， 使 得 图 wb 宽度 和 高 度 必 须 至 少 是 徽标 
的 两 倍 ， 然 后 才 粘 贴 征 标 ; 合 则 ， 它 应 该 哆 过 添加 币 标 ， 


(nm 人 Wi 一 


图 19-16 ”如 果 图 像 不 比 徽标 大 
19.7.2 ”在 硬盘 上 识别 照片 文件 夹 很 多 ， 结 果 会 很 难看 


我 有 一 个 坏 习 惯 ， 从 数码 相机 将 文件 传输 到 硬盘 的 临时 文件 夹 后 ， 会 筷 记 这 些 文 件 夹 。 下 
面 来 编程 扫描 整个 硬盘 ， 找 到 这 些 遗 扎 的 “照片 文件 夹 ”。 

编写 一 个 程序 ， 遍 历 硬盘 上 的 每 个 文件 夹 ， 找 到 可 能 的 照片 文件 来。 当然 ， 首 先 你 必须 定 
义 什么 是 “照片 文件 夹 ”一 一 假定 就 是 超过 半数 文件 是 照片 的 任何 文件 夹 。 你 如 何 定 义 什么 文 
件 是 照片 ? 
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首先 ， 照 片 文件 必须 具有 文件 扩展 名 .png 或 jpg。 此 外 ， 照 片 是 很 大 的 图 像 。 照 片 文件 的 
宽度 和 高 度 都 必须 大 于 500 像素 。 这 是 比较 含蓄 的 假定 ， 因 为 大 多 数 数 码 相机 照片 的 宽度 和 高 
度 都 是 几 千 像 素 。 

作为 提示 ， 下 面 是 这 个 程序 的 粗略 框架 : 


#! python3 
# Import modules and write comments to describe this program. 


for foldername, subfolders, filenames in os.walk('C:\\'): 
numPhotoFiles = 0 
numNonPhotoFiles = 0 
for filename in filenames: 
# Check if file extension isn't .png or .ijpg. 
if TODO: 
numNonPhotoFiles += 1 
continue # Skip to next filename 


# Open image file using Pillow. 


# Check if width & height are larger than 500. 

if TODO: 
# Image is large enough to be considered a photo. 
numPhotoFiles += 1 

else: 
# Image is too small to be a photo. 
numNonPhotoFiles += 1 


# If more than half of files were photos, 
# print the absolute path of the folder. 
if TODO: 

print (TODO) 


程序 运行 时 ， 它 应 该 在 屏幕 上 输出 所 有 照片 文件 夹 的 绝对 路 径 。 
19.7.3 ”定制 的 座位 卡 


第 15 章 包 含 了 一 个 实践 项 目 ， 利 用 纯 文本 文件 的 客人 名 单 来 创建 定制 的 邀请 函 。 作 为 附加 
项 目 ， 请 使 用 pillow 模块 为 客人 创建 定制 的 座位 卡 图 像 。 从 异步 社区 本 书 对 应 页 面 中 下 载 资源 
文件 guests.txt， 对 于 其 中 列 出 的 客人 ， 生 成 带 有 客人 名 字 和 一 些 鲜 花 装饰 的 图 像 文件 。 在 本 书 
提供 的 资源 中 ， 包 含 一 个 版 权 为 公共 领域 的 鲜花 图 像 。 

为 了 确保 每 个 座位 卡 大 小 相同 ， 在 图 像 的 边缘 添加 一 个 黑色 的 和 矩形， 这 样 在 图 像 输出 时 ， 
可 以 沿线 裁剪 。pillow 生成 的 PNG 文件 被 设置 为 每 英寸 72 个 像素 ， 因 此 4 英寸 x5 英寸 的 卡 
片 需 要 使 用 288 像素 x360 像素 的 图 像 。 


用 GUI 自动 化 控制 
键盘 和 鼠标 


掌握 编辑 电子 表格 、 下 载 文件 和 运行 程序 的 各 种 Python 模块 ， 是 很 有 
用 的 。 但 有 时 候 没 有 模块 对 应 你 要 操作 的 应 用 程序 。 在 计算 机 上 的 终极 自动 
化 任务 ， 就 是 写 程序 直接 控制 键盘 和 和 鼠标。 这 些 程序 可 以 控制 其 他 应 用 ， 向 
它们 发 送 庶 拟 的 按键 和 和 饼 标 点 击 事件 , 就 像 你 自己 坐 在 计算 机 前 与 应 用 交互 
一 样 。 

这 种 技术 被 称 为 “图 形 用 户 界面 自动 化 " ， 简 称 “GUI 自动 化 "。 有 了 
GUI 自动 化 , 你 的 程序 就 像 一 个 用 户 坐 在 计算 机 前 一 样 ,能 做 任何 事情 。 GUIJ 
自动 化 就 像 是 对 机 械 辟 进行 编程 ,你 可 以 通过 编程 让 机 械 尽 在 你 的 键盘 上 打 
字 , 并 为 你 移动 鼠标 。 这 种 技术 对 于 需要 大 量 的 机 械 式 单 击 或 填写 表格 的 任 
务 特别 有 用 。 

一 些 公司 销售 的 创新 的 (也 是 价格 昂贵 的 )“ 自 动 化 解决 方案 ”"， 通 常 
被 称 为 “机 器 人 过 程 自动 化 ”( RPA )。 这 些 产品 实际 上 和 你 用 pyautogui 模 
块 制作 的 Python 脚本 没有 什么 区 别 。 该 模块 具有 模拟 鼠标 移动 、 单 击 和 鼠 
标 滚轮 滚动 的 函数 。 本 章 只 介绍 PyAutoGUI 功能 的 子 集 。 


20.1 安装 pyautogui 模块 


pyautogui 模块 可 以 向 Windows 操作 系统 、macOS 和 Linux 操作 系统 发 
送 虚 拟 按键 和 鼠标 单 击 事件 。Windows 操作 系统 和 macOS 用 户 可 以 简单 地 使 
用 pip 来 安装 PyAutoGUI。 但 是 ，Linux 操作 系统 用 户 首先 需要 安装 一 些 
PyAutoGUI 依赖 的 软件 。 

要 安装 PyAutoGUI， 请 运行 pip install - -user pyautogui。 不 要 使 用 sudo 和 pip: 
你 可 能 为 Python 安装 了 添加 一 些 模 块 ， 而 操作 系统 也 使 用 了 它 ， 这 将 导致 与 折 有 依赖 原始 配置 
的 脚本 产生 冲突 。 但 是 ， 当 你 使 用 apt-get 安装 应 用 程序 时 ， 应 该 使 用 sudo 命令 。 

附录 A 有 安装 第 三 方 模块 的 完整 信息 。 要 测试 PyAutoGUI 是 否 正 确 安装 ， 就 在 交互 式 环 
境 运行 Import pyautogui， 并 检查 错误 信息 。 


警告 : 不 要 把 你 的 程序 保存 为 pyautogui.py， 和 否则 当 你 运行 Import pyautogui 时 ，Python 会 子 入 你 的 
程序 ,而 不 是 导入 PyAutoGUI。 你 会 得 到 类 似 AttributeError: module 'pyautogui' has 
no _ attribute 'click' 这 样 的 错误 信息 。 
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20.2 在 macOS 上 设置 无 障碍 应 用 程序 


作为 一 项 安全 措施 ，macOS 通常 不 会 让 程序 控制 鼠标 或 键盘 。 要 使 PyAutoGUI 在 macOS 
上 工作 , 你 必须 将 运行 Python 脚本 的 程序 设置 为 无 障碍 应 用 程序 。 没 有 这 一 步 , 你 的 PyAutoGUI 
函数 调用 将 没有 任何 效果 。 

无 论 你 是 在 Mu、IDLE 还 是 命令 行 窗 口上 运行 Python 程序 ， 都 要 打开 该 程序 。 然 后 打开 
System Preferences 并 进入 Accessibility 标签 页 。 当 前 打开 的 应 用 程序 将 出 现在 Allow the apps 
below to control your computer 标签 下 。 勾 选 Mu、IDLE、Terminal， 或 任何 你 用 来 运行 Python 
脚本 的 应 用 程序 。 系 统 会 提示 输入 口令 ， 确 认 这 些 更 改 。 


20.3” 走 对 路 


在 开始 GUI 自动 化 之 前 , 你 需要 知道 如 何 避 免 可 能 发 生 的 问题 。 Python 能 以 想象 不 到 的 
速度 移动 鼠标 和 按键 。 实 际 上 ， 它 可 能 太 快 ， 导 致 其 他 程序 跟 不 上 。 而 且 ， 如 果 出 了 问题 ， 
但 你 的 程序 继续 到 处 移动 鼠标 , 可 能 很 难 搞 清楚 程序 到 底 在 做 什么 ,或 者 如 何 从 问题 中 恢复 。 
你 的 程序 可 能 失去 控制 ， 即 使 它 完 美 地 执行 你 的 指令 。 如 果 程序 自己 在 移动 鼠标 , 停止 它 可 
能 很 难 , 你 不 能 单 击 IDLE 窗口 来 关闭 它 。 好 在 有 几 种 方法 来 避免 GUI 自动 化 问题 或 使 其 从 
问题 中 恢复 。 


20.3.1 暂停 和 自动 防 故 障 装 置 


如 果 你 的 程序 出 现 错 误 ， 无 法 使 用 键盘 和 鼠标 关闭 程序 ， 你 可 以 使 用 PyAutoGUI 的 故障 安全 功 
能 ， 快 速 地 将 鼠标 指针 滑动 到 屏幕 的 4 个 角 之 一 。 每 个 PyAutoGUI 函数 调用 在 执行 动作 后 都 有 
1/10 秘 的 延迟 ， 以 便 让 你 有 足够 的 时 间 将 鼠标 指针 移动 到 一 个 角落 。 如 果 PyAutoGUI 随后 发 现 鼠 
标 指针 在 角落 里 ， 会 引发 pyautogui. FailSafeException 异常 。 非 PyAutoGUI 指令 不 会 有 这 个 
1/10 秒 的 延迟 。 

如 果 你 发 现 自己 需要 停止 PyAutoGUI 程序 ， 只 需 将 鼠标 指针 移 向 角落 即 可 。 


20.3.2 ”通过 注销 关闭 所 有 程序 


停止 失去 控制 的 GUI 自动 化 程序 ， 最 简单 的 方法 可 能 是 使 用 注销 功能 ， 这 将 关闭 所 有 运行 
的 程序 。 在 Windows 和 Linux 操作 系统 上 ， 注 销 的 快捷 键 是 Ctrl-Alt-Del。 在 macOS 上 ， 注 销 
的 快捷 键 是 Command-Shift-Option-Q。 注 销 后 你 会 丢失 所 有 未 保存 的 工作 , 但 至 少 不 需 要 等 计 
算 机 完全 重启 。 


20.4 控制 鼠标 指针 
在 本 节 中 ， 你 将 学 习 如 何 利用 PyAutoGUI 移动 鼠标 指针 ， 并 追踪 它 在 屏幕 上 的 位 置 ， 但 首 20 
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先 需 要 理解 PyAutoGUI 如 何 处 理 坐 标 。 

PyAutoGUI 的 鼠标 函数 使 用 x、y 坐标 。 图 20-1 所 示 为 计算 机 屏幕 的 坐标 系统 。 它 与 第 19 
章 中 讨论 的 图 像 坐 标 系统 类 似 。“ 原 点 ”的 x、y 都 是 0， 在 屏幕 的 左上 角 。 向 右 x 沸 标 但 昼 加 ， 
向 下 ”坐标 值 增加 。 所 有 坐标 都 是 正 整 数 ， 没 有 负数 坐标 。 


”递增 


图 20-1 分辩 率 为 1920 像素 x 1080 像素 的 计算 机 屏幕 上 的 坐标 


“分 辨 率 ” 是 指 屏幕 的 宽度 和 高 度 的 像素 值 。 如 果 屏 幕 的 分 辨 率 设 置 为 1920 像素 x 1080 像 
素 ， 那 么 左上 角 的 坐标 是 (0, 0)， 右 下 角 的 坐标 是 (1919, 1079)。 

pyautogui.size() 函 数 返回 两 个 整数 的 元 组 ， 包 含 屏 幕 的 宽度 和 高 度 的 像素 数 。 在 交互 
式 环 境 中 输入 以 下 内 容 : 


>>> import pyautogui 

>>> wh = pyautogui.size() # Obtain the screen resolution. 
>>> wh 

Size(width=1920，height=1080 ) 

>>> wh[0] 

1920 

>>> Wh .width 

1920 


在 分 辩 率 为 1920 像素 x 1080 像素 的 计算 机 上 ，pyautogui.size() 返 回 (1920，1080) 。 根 
据 屏 幕 分 辩 率 的 不 同 ， 返 回 值 可 能 不 一 样 。size() 返 回 的 size 对 象 是 一 个 命名 的 元 组 。 

“命名 的 元 组 ”有 数字 索引 ， 就 像 普 通 的 元 组 一 样 ， 属 性 名 也 像 对 象 一 样 : wh[0] 和 
wh .width 都 是 以 屏幕 的 宽度 为 值 。( 命 名 的 元 组 超出 了 本 书 的 范围 。 只 要 记 住 ， 你 可 以 像 使 用 
元 组 一 样 使 用 它们 。) 


20.4.1 移动 鼠标 指针 
既然 理解 了 屏幕 坐标 ， 下 面 就 让 我 们 来 移动 鼠标 指针 。pyautogui .moveTo( 1) 函数 将 鼠标 
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指针 立即 移动 到 屏幕 的 指定 位 置 。 表示 x、y 坐标 的 整数 值 分 别 构成 了 函数 的 第 一 个 和 第 二 个 参 
数 。 可 选 的 duration 整数 或 浮 点 数 关 键 字 参数 指定 了 将 鼠标 指针 移 到 目的 位 置 所 需 的 秒 数 ; 
如 果 不 指 定 ， 默认 值 是 0， 表示 立即 移动 (在 pyautogui 函数 中 ， 所 有 的 duration 关键 字 参 
数 都 是 可 选 的 )。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import pyautogui 

>>> for i in range(10): # Move mouse in a square. 
pyautogui.moveTo(100, 100, duration=0.25) 
pyautogui.moveTo(200, 100, duration=0.25) 
pyautogui.moveTo(200, 200, duration=0.25) 
pyautogui.moveTo(100, 200, duration=0.25) 


这 个 例子 根据 提供 的 坐标 ， 以 正方 形 的 模式 顺 时 针 移动 鼠标 指针 ， 移 动 了 10 次 。 每 次 移动 
耗 时 0.25 秒 ， 因 为 有 关键 字 参 数 指定 duration=0.25。 如 果 没 有 指定 函数 调用 的 第 三 个 参数 ， 
鼠标 指针 就 会 马上 从 一 个 点 移 到 另 一 个 点 。 

pyautogui .move( ) 函数 “相对 于 当前 的 位 置 ” 移 动 鼠标 指针 。 下 面 的 例子 同样 以 正方 形 
的 模式 移动 鼠标 指针 ， 只 是 它 从 代码 开始 运行 时 鼠标 指针 所 在 的 位 置 开 始 ， 按 正方 形 移动 : 


>>> import pyautogui 

>>> for i in range(10): 

i pyautogui.move(100, 0, duration=0.25) # right 
pyautogui.move(0, 100, duration=0.25) # down 
pyautogui.move(-100, 0, duration=0.25) # left 
pyautogui.move(0, -100, duration=0.25) # up 


pyautogui.move() 也 接收 3 个 参数 : 向 右 水 平移 动 多 少 个 像素 ， 向 下 垂直 移动 多 少 个 像 
素 ， 以 及 《可 选 的 ) 花 多 少时 间 完 成 移动 。 为 第 一 个 或 第 二 个 参数 提供 负 整 数 ， 鼠 标 指针 将 向 
左 或 同上 移动 。 


20.4.2 ”获取 鼠标 指针 位 置 


调用 pyautogui.position() 函 数 ， 可 以 确定 鼠标 指针 当前 的 位 置 。 它 将 返回 函数 调用 
时 ， 鼠 标 指针 x、y 坐标 的 元 组 。 在 交互 式 环境 中 输入 以 下 内 容 ， 每 次 调用 后 请 移动 鼠标 指针 : 


>>> pyautogui.position() # Get current mouse position. 
Point (x=311, y=622) 

>>> pyautogui.position() # Get current mouse position again . 
Point (x=377, y=481) 

>>> p = pyautogui.position() # And again. 

>>> p 

Point (x=1536, y=637) 

>>> p[0] # The x-coordinate is at index 0. 

1536 

>>> p.x # The x-coordinate is also in the x attribute. 
1536 


当然 ， 返 回 值 取决 于 鼠标 指针 的 位 置 。 
20.5 ”控制 鼠标 交互 
既然 你 知道 了 如 何 移动 鼠标 指针 ， 弄 清楚 了 它 在 屏幕 上 的 位 置 ， 就 可 以 开始 单 击 、 拖 动 和 20 | 


380 第 20 章 用 GUI 自动 化 控制 键盘 和 鼠标 
滚动 鼠标 。 
20.5.1 单 击 鼠标 


要 向 计算 机 发 送 虚 拟 的 鼠标 单 击 事件 ， 就 调用 pyautogui .click() 函 数 。 默 认 情 况 下 ， 
单 击 将 使 用 鼠标 左 键 ， 单 击发 生 在 鼠标 指针 当前 所 在 位 置 。 如 果 希 望 单 击 在 鼠标 指针 当前 位 置 
以 外 的 地 方 发 生 ， 可 以 传 入 x、y 坐标 作为 可 选 的 第 一 个 和 第 二 个 参数 。 

如 果 想 指定 鼠标 按键 ， 就 加 入 button 关键 字 参 数 ， 值 分 别 为 'left'、'middle' 或 
'right'。 例 如 ，pyautogui.click(100，150，button='1left' ) 将 在 坐标 (100，150) 
处 单 击 鼠 标 左 键 .而 pyautogui.click(200, 250, button='right' ) 将 在 坐标 (200, 250) 
处 单 击 鼠标 右键 。 

在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import pyautogui 
>>> pyautogui.click(10, 5) # Move mouse to (10, 5) and click. 


你 应 该 看 到 妃 标 指针 移 到 屏幕 左上 角 的 位 置 并 单 击 。 完 整 的 “ 单 击 ” 是 指 按 鼠标 按键 ， 然 
后 放 开 ， 同 时 不 移动 位 置 。 实 现 单 击 也 可 以 调用 pyautogui. mouseDown()， 这 只 是 按 下 鼠 
标 按 键 ; 再 调用 pyautogui .mouseUp()， 释 放 鼠 标 按键 。 这 些 函 数 的 参数 与 click() 相 同 。 
实际 上 ，click() 函 数 只 是 这 两 个 函数 调用 的 方便 封装 。 

为 了 更 方便 ，pyautogui .doubleClick() 函 数 只 执行 双击 鼠标 左 键 事件 。pyautogui. 
rightClick() 和 pyautogui.middleClick() 函数 将 分 别 执行 右键 和 中 键 单 击 事件 。 


20.5.2 ” 拖 动 鼠标 


“ 拖 动 ”意味 着 移动 鼠标 指针 ， 同 时 按 住 一 个 按键 不 放 。 例 如 ， 可 以 通过 拖 动 文件 图 标 ， 在 
文件 夹 之 间 移 动 文件 ， 或 在 日 历 应 用 中 移动 预约 。 

pyautogui 提供 了 pyautogui.dragTo() 和 pyautogui.drag() 函 数 , 将 鼠标 指针 拖 动 
到 一 个 新 的 位 置 。dragTo() 和 drag() 的 参数 与 moveTo() 和 move ( ) 相 同 : x 坐标/ 水平 移动， 
y 坐标 /垂直 移动 ， 以 及 可 选 的 时 间 间 隔 (在 macOS 上 ， 如 果 鼠 标 移动 太 快 ， 拖 动 会 不 对 ， 所 以 
建议 提供 duration 关键 字 参 数 )。 

要 党 试 使 用 这 些 函 数 ， 请 打开 一 个 绘图 应 用 ， 如 Windows 操作 系统 上 的 Paint、macOS 上 
的 Paintbrush， 或 Linux 操作 系统 上 的 GNU Paint (如 果 没 有 绘图 应 用 ， 则 可 以 在 线 绘图 工具 )。 
我 将 使 用 PyAutoGUI 在 这 些 应 用 中 绘图 。 

让 鼠标 指针 停留 在 绘图 应 用 的 画布 上 ， 同 时 选中 铅笔 或 画笔 工具 ， 在 新 的 文件 编辑 需 窗 口 
中 输入 以 下 内 容 ， 保 存 为 spiralDraw.py: 


import pyautogui, time 
@ time.sleep(S5) 
@ pyautogui.click() # Click to make the window active. 
distance = 300 
change = 20 
while distance > 0: 
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© pyautogui.drag(distance, 0, duration=0.2) # Move right. 
@ distance = distance — change 
© pyautogui.drag(0, distance, duration=0.2) # Move down. 


© pyautogui.drag(-distance, 0, duration=0.2) # Move left. 
distance = distance — change 
pyautogui.drag(0， -distance，duration=0.2) # Move up. 


在 运行 这 个 程序 时 ， 会 有 5 秒 的 延迟 @， 让 你 选中 铅笔 或 画笔 工具 ， 并 让 鼠标 指针 停留 在 
画图 工具 的 窗口 上 。 然 后 spiralDraw.py 将 控制 鼠标 ， 单 击 画图 程序 获得 焦点 @@。 如 果 窗 口 有 内 
烁 的 鼠标 指针 ， 它 就 获得 了 “焦点 ”这 时 你 的 动作 〈 例 如 打字 或 这 个 例子 中 的 拖 动 鼠标 ) 就 会 
影响 该 窗口 。 画 图 程序 获取 焦点 后 ，spiralDraw.py 将 绘制 一 个 正方 形 旋转 图 案 ， 如 图 20-2 左边 
所 示 。 虽然 你 也 可 以 使 用 第 19 章 中 讨论 的 pillow 模块 来 创建 一 个 正方 形 的 螺旋 形 图 像 , 但 是 
通过 控制 鼠标 在 Paint 中 绘制 图 像 , 你 可 以 利用 这 个 程序 的 各 种 笔 刷 样式 来 创建 图 像 , 如 图 20-2 
右边 所 示 ， 以 及 实现 其 他 高 级 功能 ， 如 渐变 或 颜色 填充 。 你 可 以 自己 预选 笔 刷 设置 (或 者 让 你 
的 Python 代码 选择 这 些 设置 )， 然 后 运行 螺旋 绘图 程序 。 

distance 变量 从 300 开始 ， 所 以 在 while 循环 的 第 一 次 迭代 中 ， 第 一 次 drag() 调用 将 
鼠标 指针 向 右 拖 动 300 像素 ， 花 了 0.2 秒 @@。 然 后 distance 降 到 280@， 第 二 次 drag() 调用 
将 鼠标 指针 间 下 拖 动 280 像素 @。 第 三 次 drag() 调用 将 鼠标 指针 水 平 拖 动 -280 (向 左 280) @。 
distance 降 到 260， 最 后 一 次 drag () 调用 将 鼠标 指针 向 上 拖 动 260。 每 次 迭代 ， 和 鼠标 指针 都 
问 右 、 问 下 、 回 左 、 癌 上 拖 动 ，distance 都 比 前 一 次 迭代 小 一 点 。 通 过 这 段 代 码 循环 ， 就 可 以 移 
动 鼠 标 指针 ， 画 出 正方 形 旋 转 图 案 。 
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图 20-2 pyautogui.drag() 例 子 的 结果 ， 用 MS Paint 的 不 同 画 笔 绘制 


可 以 手动 (或 者 说 用 鼠标 ) 画 出 这 个 流 涡 , 但 一 定 要 画 得 很 慢 才能 这 么 精确 。 而 PyAutoGUI 
只 需 几 秒 就 能 画 完 ! 
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注意 : 在 本 书 编写 时 ，PyAutoGUI 无 法 将 鼠标 单 击 或 按键 事件 发 送 至 某 些 程序 ， 例 如 杀毒 软件 《为 了 防 
止 病毒 禁用 该 软件 ) 或 Windows 操 作 系 统 上 的 视频 游戏 (使 用 不 同 的 方法 接收 鼠标 和 键盘 输入 )。 
你 可 以 查看 最 新 的 PyAutoGUI 在 线 文档 ， 看 看 是 否 添加 了 这 些 功能 。 


20.5.3 ”滚动 鼠标 


最 后 一 个 pyautogui 鼠标 函数 是 scro11()。 你 向 它 提供 一 个 整 型 参数 , 说 明 向 上 或 向 下 
滚动 多 少 单位 。 单 位 的 意义 在 每 个 操作 系统 和 应 用 上 不 一 样 ， 所 以 你 必须 试验 ， 看 看 在 你 当前 
的 情况 下 能 滚动 多 远 。 

滚动 发 生 在 鼠标 的 当前 位 置 。 传 递 正 整数 表示 向 上 滚动 ， 传 递 负 整数 表示 疝 下 滚动 。 将 
鼠标 指针 停留 在 Mu 编辑 器 窗口 上 上， 在 Mu 编辑 器 的 交互 式 环境 中 运行 以 下 代码 : 


>>> pyautogui.scroll (200) 


如 果 鼠 标 指针 在 可 以 向 上 滚动 的 文本 字段 上 ， 你 会 看 到 Mu 向 上 滚动 。 
20.6 ”规划 鼠标 运动 


编写 一 个 能 自动 单 击 屏幕 的 程序 的 难点 之 一 , 就 是 找到 你 想 单 击 的 物品 的 x 坐标 和 y 坐标。 
pyautogui.mouseInfo() 函 数 可 以 帮助 你 解决 这 个 问题 。 

pyautogui.mouseInfo() 函 数 需 要 在 交互 式 环境 中 调用 ， 而 不 是 作为 程序 的 一 部 分 。 它 
启动 了 一 个 名 为 MouseInfo 的 小 应 用 程序 ， 该 应 用 程序 是 PyAutoGUI 的 一 部 分 。 这 个 应 用 程序 
的 窗口 看 起 来 如 图 20-3 所 示 。 

在 交互 式 环境 中 输入 以 下 代码 : 


>>> import pyautogui 
>>> pyautogui .mouseInfo() 


这 导致 MouseInfo 窗口 出 现 。 该 窗口 提供 了 关于 鼠标 ee - 
指针 当前 位 置 的 信息 ， 以 及 鼠标 指针 处 的 像素 的 颜色 , 以 emrmm 
3 个 整数 的 RGB 元 组 和 十 六 进 制 值 的 形式 显示 。 颜色 本 身 “一 
会 出 现在 窗口 中 的 颜色 框 中 。 mscoo sro | comic om 
为 了 帮助 记录 这 些 坐 标 或 像素 信息 ， 你 可 以 单 击 8 个 "pl 
复制 或 日 志 记录 按钮 中 的 一 个 。 Copy All、Copy XY、Copy Jwown ao | 
RGB 和 Copy RGB Hex 按钮 将 对 应 的 信息 复制 到 剪贴 板 | 


上 。Log All、Log XY、Log RGB 和 Log RGB Hex 按钮 将 | 


对 应 的 信息 写 入 窗口 中 的 大 文本 字段 。 你 可 以 通过 单 击 SB] sig 
Save Log 按钮 ， 保 存 这 个 文本 字段 中 的 文本 。 ee 


默认 情况 下 ，3 秒 按钮 延迟 复 选 框 被 勾 选 ， 在 单 击 复 
制 或 日 志 访谈 录 按钮 与 复制 或 日 志 记 录 之 间 ， 会 有 3 秒 的 。 图 20-3 ”MouseInfo 应 用 程序 的 窗口 
延迟 。 这 让 你 有 很 短 的 时 间 来 单 击 按钮 ， 然 后 将 鼠标 指针 移动 到 所 需 的 位 置 。 
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取消 义 选 此 复 选 框 ， 将 鼠标 指针 移动 到 指定 位 置 ， 然 后 按 F1 到 F8 键 复 制 或 使 用 日 志 记录 
鼠标 指针 位 置 ， 这 样 可 能 更 容易 。 你 可 以 查看 MouseInfo 窗口 顶部 的 复制 和 日 志 记录 菜单 ， 了 
解 哪 些 键 映射 到 哪些 按钮 。 

例如 ， 取 消 勾 选 3 秒 按钮 延迟 复 选 框 ， 然 后 按 F6 键 的 同时 在 屏幕 上 移动 鼠标 指针 ， 并 注 
意 鼠 标 指针 是 如 何在 屏幕 上 移动 的 。 鼠标 指针 的 x 和 ?坐标 被 记录 在 窗口 中 间 的 大 文本 字段 中 。 
你 可 以 在 以 后 的 PyAutoGUI 脚本 中 使 用 这 些 坐 标 。 


20.7 “处理 屏幕 


你 的 GUI 上 自动 化 程序 没有 必要 盲目 地 单 击 和 输入 。PyAutoGUI 拥有 屏幕 快照 的 功能 ， 可 以 
根据 当前 屏幕 的 内 容 创 建 图 形 文件 。 这 些 函 数 也 可 以 返回 一 个 pillow 的 Image 对 象 ， 包 含 当 
前 屏幕 的 内 容 。 如 果 你 是 跳跃 式 地 阅读 本 书 ， 可 能 需要 阅读 第 19 章 ， 安 装 pillow 模块 ， 然 后 
再 继续 学 习 本 节 的 内 容 。 

在 Linux 操作 系统 计算 机 上 ,需要 安装 scrot 程序 才能 在 PyAutoGUI 中 使 用 屏幕 快照 功能 。 
在 命令 行 窗口 中 ， 执 行 sudo apt-get install scrot 安装 该 程序 。 如 果 你 使 用 Windows 操 
作 系 统 或 macOS， 就 跳 过 这 一 步 ， 继 续 学 习 本 节 的 内 容 。 


20.7.1 获取 屏幕 快照 


要 在 Python 中 获取 屏幕 快照 ， 就 调用 pyautogui.screenshot() 函 数 。 在 交互 式 环境 中 
输入 以 下 内 容 : 


>>> import pyautogui 
>>> im = pyautogui.screenshot () 


im 变量 将 包含 一 个 屏幕 快照 的 Image 对 象 。 现 在 可 以 调用 im 变量 中 Image 对 象 的 方法 ， 
就 像 所 有 其 他 Image 对 象 一 样 。 第 19 章 中 包含 了 有 关 Image 对 象 的 更 多 内 容 。 


20.7.2 分 析 屏 幕 快照 


假设 你 的 GUI 自动 化 程序 中 ， 有 一 步 是 单 击 灰色 按钮 。 在 调用 click() 方 法 之 前 ， 你 可 以 
获取 屏幕 快照 ， 查 看 脚本 要 单 击 处 的 像素 。 如 果 它 的 颜色 和 灰色 按钮 不 一 样 ， 那 么 程序 就 知道 出 
问题 了 。 也 许 窗 口 发 生 了 意外 的 移动 ， 或 者 弹出 式 对 话 框 挡住 了 该 按钮 。 这 时 ， 不 应 该 继续 〈 可 
能 会 单 击 到 错误 的 信息 ， 造 成 严重 破坏 )， 程 序 可 以 “看 到 ” 它 没 有 单 击 在 正确 的 信息 上 ， 并 自 
行 停止 。 

你 可 以 通过 pixel() 函数 获得 屏幕 上 某 一 像素 点 的 RGB 颜色 值 。 在 交互 式 环境 中 输入 以 
下 内 容 : 

>>> import pyautogui 

>>> pyautogui.pixel((0, 0)) 

(176, 176, 175) 


>>> pyautogui.pixel((50, 200)) 
(130, 135, 144) 
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传递 给 pixel( ) 一 个 坐标 的 元 组 ， 如 〈0,0) 或 (50, 200)， 它 将 告诉 你 图 像 中 这 些 坐 标 处 
的 像素 的 颜色 。pixel() 的 返回 值 是 一 个 由 3 个 整数 组 成 的 RGB 元 组 ， 表 示 像 素 中 的 红 、 绿 、 
蓝 三 色 。( 没 有 第 四 个 alpha 值 ， 因 为 截图 图 像 是 完全 不 透明 的 。) 

PyAutoGUI 的 pixelMatchesColor() 函 数 将 返回 True， 如 果 屏 幕 上 给 定 的 x 和 y 坐标 
处 的 像素 与 给 定 的 颜色 相 匹 配 ， 则 返回 True。 第 一 个 和 第 二 个 参数 是 整数 的 x 和 ?坐标 ， 第 三 
个 参数 是 屏幕 像素 必须 匹配 的 RGB 颜色 的 3 个 整数 元 组 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import pyautogui 

@ >>> pyautogui.pixel((50, 200)) 
(130, 135, 144) 

四 >>> pyautogui.pixeliMatchesColor(50, 200, (130, 135, 144)) 
True 

© >>> pyautogui.pixelMatchesColor(50, 200, (255, 135, 144)) 
False 


在 用 pixel( ) 取 得 特定 坐标 处 像素 颜色 的 RGB 元 组 之 后 @, 将 同样 的 坐标 和 RGB 元 组 传 
递 给 pixelMatchesColor() 人 @@， 这 应 该 返回 True。 然 后 改变 RGB 元 组 中 的 一 个 值 ， 用 同样 
的 坐标 再 次 调用 pixelMatchesColor() 卓 ,这 应 该 返回 False。 你 的 GUI 自动 化 程序 要 调用 
click() 之 前 ， 这 种 方法 应 该 有 用 。 请 注意 ， 给 定 坐标 处 的 颜色 应 该 “完全 ”匹配 。 即 使 只 是 
稍 有 差异 〈 例 如 ， 是 (255，255，254) 而 不 是 (255，255，255) )， 函 数 也 会 返回 False。 


20.8 图 像 识 别 


如 果 事 先 不 知道 PyAutoGUI 应 该 单 击 哪里 ， 该 怎么 办 ? 可 以 使 用 图 像 识 别 功能 ， 问 
PyAutoGUI 提供 希望 单 击 的 图 像 ， 让 它 去 弄 清楚 坐标 。 

例如 ， 如 果 你 以 前 获得 了 屏幕 快照 ， 截 取 了 提交 按钮 的 图 像 ， 保 存 为 submit.png， 那 么 
locateOnScreen( ) 函数 将 返回 图 像 所 在 处 的 坐标 。 要 了 解 locateOnScreen() 函 数 的 工作 方式 ， 
请 获取 屏幕 上 一 小 块 区 域 的 屏幕 快照 ， 保 存 该 图 像 ， 并 在 交互 式 环境 中 输入 以 下 内 容 ， 用 你 的 
屏幕 快照 文件 名 代替 'submit.png ': 


>>> import pyautogui 

>>> b = pyautogui.locateOnScreen('submit.png') 
>>> b 

Box(left=643, top=745, width=70, height=29) 


Box 对 象 是 一 个 命名 的 元 组 , 它 由 locateOnScreen( ) 函数 返回 ， 是 屏幕 上 首次 发 现 该 图 
像 时 左边 的 x 坐标 、 项 边 的 > 坐标、 宽度 以 及 高 度 。 如 果 你 用 自己 的 屏幕 快照 在 你 的 计算 机 上 
尝试 ， 那 么 返回 值 会 和 这 里 显示 的 不 一 样 。 

如 果 屏 幕 上 找 不 到 该 图 像 ，locateOnScreen() 函 数 将 返回 None。 请 注意 ， 要 成 功 识 
别 ， 屏 幕 上 的 图 像 必 须 与 提供 的 图 像 完 全 匹配 。 即 使 只 差 一 个 像素 ，locateOnScreen() 
国 数 也 会 引发 ImageNotFoundException 异常 。 如 果 你 改变 了 屏幕 分 辨 率 ， 之 前 截取 的 
图 片 可 能 会 与 当前 屏幕 上 的 图 片 不 一 致 。 你 可 以 在 操作 系统 的 显示 设置 中 更 改 缩放 比例 ， 如 
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图 20-4 所 示 。 
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20-4 ”Windows 10 操作 系统 ( 左 ) 和 macOSs ( 右 ) 中 的 缩放 比例 显示 设置 


如 果 该 图 像 在 屏幕 上 能 够 找到 多 处 , locateAll0nScreen( ) 函 数 将 返回 一 个 Generator 
对 象 。 可 以 将 它 传递 给 1ist ()， 返 回 一 个 4 个 整数 元 组 的 列表 。 在 屏幕 上 找到 图 像 的 每 个 位 
置 ， 都 会 有 一 个 4 个 整数 元 组 。 继 续 在 交互 式 环境 的 例子 中 输入 以 下 内 容 (用 你 自己 的 图 像 文 
件 名 取代 ' submit .png'): 


>>> list(pyautogui,.locateAllOnScreen('submit.png')) 
[(643, 745, 70, 29), (1007, 801, 70, 29)] 


每 个 4 整数 元 组 代表 了 屏幕 上 的 一 个 区 域 。 如 果 图 像 只 找到 一 次 ， 那 么 就 使 1ist() 和 
locateAllOnScreen() 返 回 的 列表 只 包含 一 个 元 组 。 

在 得 到 图 像 所 在 屏幕 区 域 的 4 个 整数 元 组 后 ， 就 可 以 单 击 这 个 区 域 的 中 心 ， 将 该 元 组 传递 
给 click()， 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> pyautogui.click((643, 745, 70, 29)) 


作为 快捷 方式 ， 你 也 可 以 直接 将 图 像 文件 名 传递 给 click( ) 函数 : 


>>> pyautogui.click("submit.png') 


moveTo() 和 dragTo() 函 数 也 接收 图 像 文件 名 参数 。 请 记 住 ， 如 果 locateOnScreen() 
在 屏幕 上 找 不 到 图 像 ， 就 会 引发 异常 ， 因 此 应 该 在 try 语句 中 调用 它 : 


try : 

location = pyautogui.locateOnScreen('submit.png') 
except: 

print('Image could not be found.') 


没有 try 和 except 语句 ， 未 捕获 的 异常 将 导致 程序 崩溃 。 由 于 你 无 法 确定 程序 总 能 找到 该 
图 像 ， 因 此 在 调用 locateOnScreen() 时 最 好 使 用 try 和 except 语句 。 


20.9 获取 窗口 信息 


使 用 图 像 识别 功能 在 屏幕 上 找 东西 是 一 种 很 脆弱 的 方式 , 只 要 有 一 个 像素 点 的 颜色 不 一 样 ， 
pyautogui.1locateonScreen() 就 找 不 到 图 像 。 如 果 你 需要 找到 屏幕 上 某 个 特定 窗口 的 位 置 ， 20 


386 第 20 章 用 GUI 自动 化 控制 键盘 和 鼠标 


使 用 PyAutoGUI 的 窗口 功能 会 更 快 、 更 可 靠 。 


注意 ; 到 0.9.46 版 为 止 ， PyAutoGUI 的 窗口 功能 仅 适用 于 Windows 操 作 系 统 ， 不 适用 于 macOS 或 Linux 操 作 系 
统 。 这 些 功能 来 自 PyAutoGUI 包 含 的 PyGetWindow 模 块 。 


20.9.1 获取 活动 窗口 


屏幕 上 的 活动 窗口 是 当前 处 于 前 台 并 且 接 收 键盘 输入 的 窗口 。 如 果 你 当前 正在 使 用 Mu 编 
辑 器 编写 代码 ， 那 么 Mu 编辑 器 的 窗口 为 活动 窗口 。 屏 幕 上 的 所 有 窗口 中 ， 同 时 仅 有 一 个 处 于 
活动 状态 。 

在 交互 式 环境 中 ， 调 用 pyautogui .getActiveWindow() 函数 以 获取 Window 对 象 ( 在 
Windows 操作 系统 上 运行 时 ， 从 技术 上 讲 是 Win32Window 对 象 )。 

拥有 该 Window 对 象 后 ， 你 可 以 获取 它 的 所 有 属性 。 这 些 属性 描述 了 和 它 的 大 小 、 位 置 和 
标题 。 

left、right、top、bottom: 一 个 整数 ， 表 示 窗 口 边 的 x 或 坐标 。 

topleft、topright、bottomleft、bottomright: 两 个 整数 的 命名 元 组 ， 表 示 窗 口 


角 的 (x, y) 坐 标 。 
midleft、midright、midleft、midright: 两 个 整数 的 命名 元 组 ， 表 示 和 窗口 边 中 间 的 
(x, 坐标 。 


width，height: 一 个 整数 ， 表 示 窗 口 的 一 个 维度 ， 以 像素 为 单位 。 

size: 两 个 整数 的 命名 元 组 ， 表 示 窗 口 的 (宽度 ， 高 度 )。 

area: 一 个 整数 ， 表 示 窗 口 的 面积 ， 以 像素 为 单位 。 

center: 两 个 整数 的 命名 元 组 ， 表 示 窗 口 的 中 心 (x, y) 坐标 。 

centerx、centery: 一 个 整数 ， 表 示 窗 口中 心 的 x 或 y 坐标 。 

box: 4 个 整数 的 命名 元 组 ， 表 示 窗 口 ( 左 侧 、 顶 部 、 宽 度 、 高 度 )。 

title: 窗口 顶部 标题 栏 中 的 文本 字符 串 。 

例如 ， 要 从 窗口 对 象 中 获取 窗口 的 位 置 、 大 小 和 标题 信息 ， 请 在 交互 式 环境 中 输入 以 下 
内 容 : 


>>> import pyautogui 

>>> fw = pyautogui.getActiveWindow() 

>>> fw 

Win32Window(hWnd=2034368) 

>>> str (fw) 

‘<Win32Window left="500", top="300", width="2070", height="1208", title="MuU 
VOT toti py >" 

>>> fw.title 

‘Mu 1.0.1 # testi1.py' 

>>> fw.size 

(2070，1208 ) 

>>> fw.left, fw.top, fw.right, fw.bottom 
(500, 300, 2070， 1208) 

>>> fw.topleft 

(256， 144) 

>>> fw.area 
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2500560 
>>> pyautogui.click(fw.left + 10, fw.top + 20) 


现在 ， 你 可 以 用 这 些 属性 来 计算 窗口 内 的 精确 坐标 。 如 果 你 知道 要 单 击 的 按钮 总 是 位 于 窗 
口 左 上 角 的 右 侧 10 像素 和 向 下 20 像素 ， 并 且 窗 口 的 左上 角 位 于 屏幕 坐标 (300，500)， 那 么 调 
用 pyautogui.click(310，520) (或 pyautogui.click(fw. left + 10 fw.top + 20)， 
如 果 fw 包含 该 窗口 的 Window 对 象 ) 将 单 击 该 按钮 。 这 样 ， 你 就 不 必 依靠 速度 较 慢 、 可 靠 性 较 
低 的 1ocate0nScreen( ) 函数 来 找到 按钮 。 


20.9.2 ”获取 窗口 的 其 他 方法 


尽管 getActiveWindow() 对 于 获取 函数 调用 时 处 于 活动 状态 的 窗口 很 有 用 ， 但 你 需要 使 
用 其 他 函数 才能 获取 屏幕 上 其 他 窗口 的 Window 对 象 。 

以 下 4 个 函数 返回 Window 对 象 的 列表 。 如 果 它 们 找 不 到 任何 窗口 ,， 就 会 返回 一 个 空 列表 。 

pyautogui.getAllWindows(): 返回 屏幕 上 所 有 可 见 窗口 的 Window 对 象 列表 。 

pyautogui.getWindowsAt (x, y): 返回 所 有 包含 点 (x,y) 的 可 见 窗口 的 Window 对 象 
列表 。 

pyautogui.getWindowsWithTitle(title): 返回 所 有 在 标题 栏 中 包含 字符 串 title 
的 可 见 窗口 的 Window 对 象 的 列表 。 

pyautogui.getActiveWindow(): 返回 当前 接收 键盘 焦点 的 窗口 的 Window 对 象 。 

PyAutoGUI 还 有 pyautogui .getAlL1Tit1les() 函 数 ， 该 函数 返回 所 有 可 见 窗口 的 字符 串 
列表 。 


20.9.3 ”操纵 窗口 


窗口 属性 不 仅 可 以 告诉 你 窗口 的 大 小 和 位 置 ， 还 可 以 做 更 多 的 事情 。 你 也 可 以 设置 它们 的 
值 ， 以 便 调整 窗口 大 小 或 移动 窗口 。 例 如 ， 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import pyautogui 
>>> fw = pyautogui.getActiveWindow() 

© >>> fw.width # Gets the current width of the window. 
1669 

© >>> fw.topleft # Gets the current position of the window. 
(174. 153) 

© >>> fw.width = 1000 # Resizes the width. 

© >>> fw.topleft = (800, 400) # Noves the window. 


首先 ， 我们 使 用 Window 对 象 的 属性 来 查找 有 关 和 窗口 大 小 @ 和 位 置 @ 的 信息 。 在 Mu 编辑 
种 中 调用 这 些 国 数 后 ， 窗 口 应 该 变 罕 目 并 移动 @， 如 图 20-5 所 示 。 

你 还 可 以 发 现 并 更 改 窗口 的 最 小 化 、 最 大 化 和 激活 状态 。 尝 试 在 交互 式 环境 中 输入 以 下 
内 容 : 

>>> import pyautogui 

>>> fw = pyautogui.getActiveWindow!() 


四 >>> fw.isMaximized # Returns True if window is maximized. 
False 
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© >>> fw.isMinimized # Returns True if window is minimized. 
False 
© >>> fw.isActive # Returns True if window is the active window. 
True 
© >>> fw.maximize() # Maximizes the window. 
>>> fw.isMaximized 
True 
© >>> fw.restore() # Undoes a minimize/maximize action. 
©@ >>> fw.minimize{) # Minimizes the window. 
>>> import time 
>>> # Wait 5 seconds while you activate a different window: 
@ >>> time.sleep(5); fw.activatel() 
© >>> fw.close() # This will close the window you're typing in. 
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图 20-5 利用 Window 对 象 属性 移动 (并 调整 其 大 小 ) 之 前 (上 ) 和 之 后 (下 ) 的 Mu 编辑 器 窗口 


isMaximized@、isMinimized @ 和 isActive 全 属性 包含 指示 窗口 当前 是 否 处 于 该 状 


态 的 布尔 值 。maximize()@、restore()@、nminimize()@ 和 activate()@ 方 法 更 改 窗 口 


的 状态 。 使 用 maximum() 或 minimal() 最 大 化 或 最 小 化 窗口 后 ，restore() 方 法 会 将 窗口 还 
原 到 以 前 的 大 小 和 位 置 。 
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close() 方 法 @ 将 关闭 一 个 窗口 。 注 意 使 用 这 种 方法 ， 因 为 它 可 能 会 绕 过 要 求 你 在 退出 应 
用 程序 之 前 保存 所 做 工作 的 所 有 消息 对 话 框 。 
此 外 ， 你 也 可 以 通过 PyGetWindow 模块 ， 将 这 些 功能 与 PyAutoGUI 分 开 使 用 。 


20.10 ”控制 键盘 


PyAutoGUI 也 有 一 些 函 数 向 计算 机 发 送 虚 拟 按键 操作 ， 让 你 能 够 填充 表格 ， 或 在 应 用 中 输 
入 文本 。 


20.10.1 通过 键盘 发 送 一 个 字符 串 


pyautogui.write() 函数 向 计算 机 发 送 虚 拟 按键 操作 。 这 些 操 作 产生 什么 效果 ， 取 决 于 当前 
获得 焦点 的 窗口 和 文本 输入 框 。 我 们 可 能 需要 先 向 文本 框 发 送 一 次 鼠标 单 击 事件 ， 确 保 它 获 得 焦点 。 

举 一 个 简单 的 例子 ， 让 我 们 用 Python 自动 化 在 文件 编辑 器 窗口 中 输入 “Hello, world!”。 首 
先 , 打开 一 个 新 的 文件 编辑 器 窗口 , 将 它 放 在 屏幕 的 左上 角 , 以 便 PyAutoGUI 单 击 正确 的 位 置 ， 
让 它 获 得 焦点 。 然 后 ， 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> pyautogui.click(100，200); pyautogui.write('Hello, world!') 


请 注意 ， 在 同一 行 中 放 两 个 命令 ， 用 分 号 隔 开 ， 这 让 交互 式 环境 不 会 在 两 个 指令 之 间 提 示 和 输入。 
这 防止 了 你 在 click() 和 write() 调 用 之 间 ， 不 小 心 让 新 的 窗口 获得 焦点 ， 从 而 让 这 个 例子 失败 。 

Python 首先 在 坐标 〈100, 200) 处 发 出 虚拟 鼠标 单 击 事件 ， 这 将 单 击 文件 编辑 器 窗口 ， 让 
它 获得 焦点 。write() 图 数 调用 将 向 窗口 发 送 文本 “Hello, world!”， 结 果 如 图 20-6 所 示 。 现 在 
有 了 替 你 打字 的 代码 ! 
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>>> import pyautogui 
>>> pyautogui.click(190, 260); pyautogui.write('Hello, world!’') 
>»>> 


图 20-6 用 PyAutoGUI 单 击 文件 编辑 器 窗口 ， 在 其 中 输入 Hello, world! 


睦 认 情况 下 ,write() 函 数 将 立即 输出 完整 字符 串 。 但 是 , 你 可 以 传 入 可 选 的 第 二 个 参数 ， 
在 每 个 字符 之 间 添 加 短 时 间 暂 停 。 例 如 ，pyautogui.write('Hello, world!'， 0.25) 将 
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在 输出 H 后 等 待 0.25 秒 ， 输 出 e 以 后 再 等 待 0.25 秒 ， 以 此 类 推 。 这 种 渐进 的 打字 机 效果 ， 对 
于 较 慢 的 应 用 可 能 有 用 ， 它 们 处 理 按 键 事件 的 速度 不 够 快 ， 跟 不 上 PyAutoGUI。 
对 于 A 或 ! 这 样 的 字符 ，PyAutoGUI 将 自动 模拟 按 住 Shift 键 。 


20.10.2 ” 键 名 


不 是 所 有 的 键 都 很 容易 用 单个 文本 字符 来 表示 。 例 如 ， 如 何 把 Shift 键 或 左 箭头 键 表示 为 单个 
字符 ? 在 PyAutoGUI 中 , 这 些 键 表示 为 短 的 字符 串 值 : 'esc ' 表 示 Esc 键 ，'enter ' 表 示 Enter 键 。 

除了 单个 字符 串 参 数 ， 还 可 以 向 write() 函 数 传递 这 些 键 字符 串 的 列表 。 例 如 ， 以 下 的 调 
用 表示 按 a 键 ， 然 后 是 b 键 ， 然 后 是 左 箭头 两 次 ， 最 后 是 X 和 了 键 : 

>>> pyautogui.write(['a', 'b', 'left', 'left', 'X', YY]) 

因为 按 下 左 箭头 将 移动 键盘 光标 ， 所 以 这 会 输出 XYab。 表 20-1 列 出 了 PyAutoGUI 的 键盘 按 
键 字符 串 及 其 含义 ， 你 可 以 将 它们 传递 给 write() 函 数 ， 模 拟 任何 按键 组 合 。 

你 也 可 以 查看 pyautogui .KEYBOARD_KEYS 列表 ， 看 看 PyAutoGUI 接收 的 所 有 可 能 的 键 
字符 串 。'shift' 字 符 串 指 的 是 左边 的 Shift 键 ， 它 等 价 于 'shiftleft' 。 'ctr1' 、 
'alt' 和 'win' 字符 串 也 一 样 ， 它 们 都 是 指 左边 的 键 。 

表 20-1 PyKeyboard 属性 


键盘 按键 字符 串 含义 
Bs 
"antoer' 《Or "return’ OrF “MA” 回 车 键 
:esSC' Esc 键 
'shiftleft'、'shiftright' 左右 Shift 键 
"altieft', "altright’ 左右 Alt 键 
:Ctrlleft'、'ctrlright， 左右 Ctrl 键 
作业 夫人 人 二 Tab 键 
'backspace'、'delete' Backspace 键 和 Delete 键 
'pageup'、'pagedown' Page Up 键 和 Page Down 键 
'home'、'end' Home 键 和 End 键 
SD" "Ow" Loft" Pioht" 上 下 左右 箭头 键 
2 FI 一 F12 键 

立 小 如 ~ 7 五 此 \ 必 石 : pe 

‘volumemute'、'volumedown'、'volumeup' et 这 些 键 ， 但 你 
'pause' Pause 键 
‘capslock'、'numlock'、'scrolllock' Caps Lock 键 、Num lock 键 和 Scroll Lock 键 
'insert' Ins 键 或 Insert 键 
:printscreen' Prtsc 键 或 Print Scrcen 键 
'winleft'、'winright' 左右 Win 键 (在 Windows 操作 系统 上 ) 
'command' Command 键 (在 macOS 上 ) 
:Option' Option 键 (在 macOS 上 ) 
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20.10.3 按 下 和 释放 键盘 按键 


就 像 mouseDown() 和 mouseUp() 函数 一 样 ，pyautogui.keyDown() 和 pyautogui. 
keyUp() 将 向 计算 发 送 虚 拟 的 按键 和 释放 命令 。 它 们 将 根据 参数 发 送 键 字符 串 ( 见 表 20-1)。 方 便 
起 见 ，PyAutoGUI 提供 了 pyautogui .press() 函 数 ， 它 调用 这 两 个 函数 ， 模 拟 完整 的 按键 事件 。 

运行 下 面 的 代码 ， 它 将 输出 美元 字符 (通过 按 住 Shift 键 并 按 4 得 到 ): 


>>> pyautogui.keyDown('shift'); pyautogui.press('4'); pyautogui.keyUp('shift') 


这 行 代码 按 住 Shift 键 ， 按 下 《〈 并 释放 ) 4 键 , 然后 再 释放 Shift 键 。 如 果 你 需要 在 文本 
框 内 输入 一 个 字符 串 ， 使 用 write () 函数 就 更 适合 。 但 对 于 接收 单个 按键 命令 的 应 用 ， 使 用 
press() 函 数 是 更 简单 的 方式 。 


20.10.4 快捷 键 组 合 


“快捷 键 ” 或 “ 热 键 ”是 一 种 按键 组 合 ， 它 调用 某 种 应 用 功能 。 复 制 选择 内 容 的 常用 快捷 键 
是 Ctrl-C (在 Windows 和 Linux 操作 系统 上 ) 或 Command-C (在 macOS 上 )。 用 户 按 住 Ctrl 
键 ， 然 后 按 C 键 ， 然 后 释放 C 键 和 Ctrl 键 。 要 用 PyAutoGUI 的 keyDown() 和 keyUp( ) 函数 来 
做 到 这 一 点 ， 必 须 输入 以 下 代码 : 


pyautogui.keyDown( ' ctrl ' ) 
pyautogui.keyDown('c') 
pyautogui.keyUp('c') 
pyautogui.keyUp('ctrl') 


这 相当 复杂 。 作 为 替代 ， 可 以 使 用 pyautogui.hotkey() 函数 ， 它 接收 多 个 键 字符 串 参 
数 ， 按 顺序 按 下 ， 再 按 相反 的 顺序 释放 。 例 如 对 于 Ctrl-C 快捷 键 ， 代 码 就 像 下 面 这 样 简单 : 


pyautogui.hotkey('ctrl', 'c') 


这 个 函数 对 于 较 大 的 快捷 组 合 特别 有 用 。 在 Word 中 ，Ctrl-Alt-Shift-S 快捷 键 组 合 可 以 显示 样式 
窗 格 。 不 必 进 行 8 次 不 同 的 函数 调用 (4 次 keyDown( ) 调 用 和 4 次 keyUp( ) 调 用 )， 你 只 需要 调用 
hotkeyt etPi "alt' Shift "Ss" ) 就 可 以 了 。 
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对 于 自动 化 那些 歼 琐 的 工作 ， 使 用 GUI 自动 化 脚本 是 一 个 很 好 的 方法 , 但 是 你 的 脚本 也 可 
能 过 分 挑剔。 如 果 一 个 窗口 在 桌面 上 的 位 置 不 对 ， 或 者 一 些 弹 出 式 窗 口 意外 地 出 现 ， 你 的 脚本 
可 能 会 在 屏幕 上 单 击 错误 的 东西 。 以 下 是 一 些 关 于 设置 你 的 GUI 自动 化 脚本 的 技巧 。 
口 每 次 运行 脚本 时 使 用 相同 的 屏幕 分 辨 率 ， 这 样 窗口 的 位 置 就 不 会 改变 。 
口 你 的 脚本 单 击 的 应 用 程序 窗口 应 该 最 大 化 ， 这 样 每 次 运行 脚本 时 ， 它 的 按钮 和 菜单 都 在 
同一 个 地 方 。 
口 在 等 待 内 容 加 载 的 过 程 中 ， 要 加 入 足够 的 暂停 时 间 ; 你 不 希望 脚本 在 应 用 程序 准备 好 之 
前 就 开始 单 击 。 
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口 使 用 locateOnScreen() 来 找到 要 单 击 的 按钮 和 菜单 ， 而 不 是 依赖 x、y 坐标 。 如 果 你 
的 脚本 找 不 到 需要 单 击 的 东西 ， 就 停止 程序 ， 而 不 是 让 它 继续 睹 点 。 

口 使 用 getWindowsWithTitle() 来 确保 你 认为 脚本 正 单 击 的 应 用 程序 窗口 是 存在 的 ， 
并 使 用 activate() 方 法 将 该 窗口 放 在 前 台 。 

口 使 用 第 11 章 中 的 日 志 模 块 来 保存 脚本 所 做 事情 的 日 志文 件 。 这 样 一 来 ， 如果 你 不 得 不 中 途 

停止 你 的 脚本 ， 你 就 可 以 改变 它 ， 从 它 上 次 结束 的 地 方 重新 开始 。 

口 在 你 的 脚本 中 加 入 尽 可 能 多 的 检查 。 想 一 想 ， 如 果 出 现 一 个 意外 的 弹出 窗口 ， 或 者 你 的 

计算 机 失去 了 网 络 连接 ， 它 可 能 会 失败 。 

口 你 可 能 需要 在 脚本 刚 开 始 时 监督 该 脚本 的 执行 ， 确 保 它 正 常 工作 。 

你 可 能 还 需要 在 脚本 的 开始 处 设置 一 个 暂停 ， 这 样 用 户 可 以 设置 脚本 将 单 击 的 窗口 。 
PyAutoGUI 有 一 个 sleep( ) 函数 , 它 的 作用 与 time .sleep() 函 数 相同 ( 它 只 是 让 你 不 必 在 脚 
本 中 添加 import time)。 还 有 一 个 countdown( ) 函 数 ， 它 可 以 输出 倒计时 的 数字 ， 给 用 户 
一 个 视觉 上 的 指示 ， 说 明 脚本 即将 继续 执行 。 在 交互 式 环境 中 输入 以 下 内 容 : 


>>> import pyautogui 

>>> pyautogui.sleep(3) # Pauses the program for 3 seconds. 
>>> pyautogui.countdown(10) # Counts down over 10 seconds. 
中 

>>> print('Starting in ', end=''); pyautogui.countdown(3) 
Starting in 3 2 1 


这 些 技巧 让 你 的 GUI 目 动 化 脚本 更 容易 使 用 ， 并 能 从 不 可 预见 的 情况 中 恢复 。 


20.12 复习 PyAutoGUI 的 函数 


本 章 介 绍 了 许多 不 同 函 数 ， 下 面 是 快速 的 汇总 参考 。 

moveTo(Xx,，y): 将 鼠标 指针 移动 到 指定 的 x、y 坐标 。 

move (x0ffset，y0ffset): 相对 于 当前 位 置 移动 鼠标 指针 。 
dragTo(x，y): 按 住 左 键 移动 鼠标 指针 。 

drag (x0ffset，y0ffset): 按 住 左 键 ， 相 对 于 当前 位 置 移动 鼠标 指针 。 
click(x，y，button): 模拟 单 击 〈 默 认 是 左 键 )。 

rightClick(): 模拟 右键 单 击 。 

middleClick(): 模拟 中 键 单 击 。 

doubleClick(): 模拟 左 键 双 击 。 

mouseDown(x，y，button): 模拟 在 x、y 处 按 指定 的 鼠标 按键 。 
mouseUp(x，y，button): 模拟 在 x、y 处 释放 指定 键 。 
scroll(units): 模拟 滚动 滚轮 。 正 参数 表示 向 上 滚动 ， 负 参数 表示 向 下 滚动 。 
write(message): 输入 指定 message 字符 串 中 的 字符 。 
write([key1，key2，key3]): 输入 指定 键 字符 串 。 

press(key): 按 下 并 释放 指定 键 。 

keyDown (key): 模拟 按 下 指定 键 。 
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keyUp (key): 模拟 释放 指定 键 。 

hotkey([key1，key2，key3] ): 模拟 按 顺 序 按 下 指定 键 ， 然 后 以 相反 的 顺序 释放 。 

screenshot(): 人 返回 屏幕 快照 的 Image 对 象 〈 参 见 第 19 章 关 于 Image 对 象 的 信息 )。 

getActiveWindow()、 getAllWindows()、getWindowsAt() 和 getWindowsWithTitle(): 
返回 Window 对 象 ， 可 通过 该 对 象 在 桌面 上 调整 应 用 程序 窗口 的 大 小 和 位 置 。 

getA11Titles() 返 回 果 面 上 每 个 窗口 的 标题 栏 文本 的 字符 串 列 表 。 


- ee captchas 和 计算 机 道德 


“用 完全 自动 化 的 公共 因 灵 测试 来 区 分 计算 机 和 人 类 ” 或 “captchas” 是 指 那些 小 测试， 要 

求 你 输入 捏 曲 图 片上 的 字母 ， 或 单 击 消防 栓 的 图 片 。 这 些 测 试 对 人 类 来 说 很 容易 通过 (尽管 很 

烦人 )， 但 对 软件 来 说 几乎 不 可 能 解决. 看 完 这 一 章 ， 你 就 会 知道 写 一 个 脚本 是 多 么 容易 ， 例 
如 ， 可 以 注册 几 十 亿 个 免费 的 电子 邮件 账户 ， 或 者 用 大 量 驭 扰 信 息 攻击 用 户 。 人 要 求 完 


成 只 有 人 类 才能 通过 的 步骤 ， 从 而 缓解 这 种 情况 。 

然而 ， 并 不 是 所 有 的 网 站 都 能 实现 captchas， 而 且 这 些 很 容易 被 不 道德 的 程序 员 滥用。 
编程 是 一 项 强大 而 激动 人 心 的 技能 ， 你 可 能 受到 诱惑 去 滥用 这 种 能 力 ， 以 谋取 个 人 利益 ， 
甚至 只 是 为 了 炉 灼 。 但 是 ， 就 像 一 扇 没 锁 的 门 并 不 能 成 为 非法 入 侵 的 理由 一 样 ， 你 的 程序 
的 责任 也 应 该 由 你 这 个 程序 员 来 承担 。 绕 过 系统 造成 伤害 ， 侵犯 隐私 ， 或 者 获得 不 正当 的 
利益 ， 这 些 并 没有 什么 高 明之 处 。 我 希望 我 在 写 这 本 书 的 过 程 中 所 做 的 努力 ， 能 让 你 成 为 
最 有 成 就 感 的 自己 ， 而 不 是 唯利是图 的 自己 。 
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在 所 有 繁琐 的 任务 中 ， 填 表 是 最 烦人 的 。 在 最 后 一 章 的 项 目 中 ， 你 将 搞定 它 。 假 设 你 在 电 
子 表 格 中 有 大 量 的 数据 ， 必 须 重复 将 它 输入 另 一 个 应 用 的 表单 界面 中 ， 没 有 实习 生 ooo 
尽管 有 些 应 用 有 导入 功能 ， 让 你 上 传 包含 信息 的 电子 表格 ， 但 有 时 候 似 乎 没有 其 他 方法 ， 只 能 
重复 地 单 击 和 输入 几 个 小 时 。 读 到 了 本 书 的 这 一 章 ， 你 “当然 ”知道 会 有 其 他 方法 。 

本 项 目的 表单 是 Google Docs 表单 ， 你 可 以 在 autbor+form 的 网 站 中 找到 ， 如 图 20-7 所 示 。 

总 ee 程序 应 该 完成 以 下 任务 。 

. 单 击 表单 的 第 一 个 文本 字段 。 

2. 遍历 表单 ， 在 每 个 输入 栏 中 输入 信息 。 

3. 单 击 Submit 按钮 。 

4. 用 下 一 组 数据 重复 这 个 过 程 。 

这 意味 着 代码 需要 执行 以 下 操作 。 

1. 调用 pyautogui.click() 函 数 ， 单 击 表单 和 Submit 按钮 。 

2. 调用 pyautogui .write() 函 数 ， 在 输入 栏 中 输入 文本 。 

3. 处 理 KeyboardInterrupt 异常 ， 这 样 用 户 能 按 Ctrl-C 快捷 键 退 出 。 
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打开 一 个 新 的 文件 编辑 器 窗口 ， 将 它 保存 为 formFillerpy。 


Robocop was the grestest action movie ol the 1960%. 
和 


Hew hub ras soorcs hrouoh Goo 其 Forms 


图 20-7 本 项 目 用 到 的 表单 
第 1 步 : 弄 清楚 步 又 


在 编写 代码 之 前 ， 你 需要 弄 清楚 填写 一 次 表格 时 需要 的 准确 按键 和 鼠标 单 击 事件 。20.4 节 
中 的 mouseNow.py 脚本 可 以 帮助 你 弄 清 楚 确切 的 鼠标 指针 坐标 。 你 只 需要 知道 第 一 个 文本 输入 
栏 的 坐标 。 在 单 击 第 一 个 输入 栏 之 后 ， 你 可 以 按 Tab 键 ， 将 焦点 移 到 下 一 个 输入 栏 。 这 让 你 不 
必 弄 清楚 每 一 个 输入 栏 的 x、y 坐标 。 

下 面 是 在 表单 中 输入 数据 的 步骤 。 


2. 输入 一 个 名 称 ， 然 后 按 Tab 键 。 

3. 输入 最 大 的 恐惧 (greatest fear)， 然 后 按 Tab 键 。 

4. 按 向 下 键 适当 的 次 数 ， 选择 糜 力 源 (wizard power source): 一 -次 是 Wand,， 两 次 是 Amulet， 
3 次 是 Crystal ball，4 次 是 money。 然 后 按 Tab 键 ( 注 意 ， 在 macOS 中 ， 你 必须 为 每 次 选择 多 按 
一 次 向 下 键 。 对 于 某 些 浏览 器 ， 你 也 需要 按 回 车 键 )。 

5. 按 向 右键 ， 选 择 Robocop 问题 的 答案 。 按 一 次 是 2， 两 次 是 3，3 次 是 4，4 次 是 5， 或 
按 空 格 键 选择 1 ( 它 是 扶 认 加 亮 的 )。 然 后 按 Tab 键 。 

6. 输入 附加 的 备注 ， 然 后 按 Tab 键 。 

7. 按 回 车 键 ， 单 击 Submit 按钮 。 

8. 在 提交 表单 后 ， 浏 览 器 将 转 到 一 个 页 面 。 然 后 你 需要 单 击 一 个 链接 ， 返 回 到 表单 页 面 。 

不 同 操作 系统 上 的 不 同 浏览 器 ， 工 作 起 来 可 能 与 这 里 的 步骤 稍 有 不 同 ， 所 以 在 运行 程序 之 前 ， 
要 确保 这 些 按键 组 合适 合 你 的 计算 机 。 
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第 2 步 : 建立 坐标 


访问 第 一 步 中 的 表单 网 站 ， 在 浏览 器 中 载 入 你 下 载 的 示例 表单 (如 图 20-7 所 示 )。 
让 你 的 源 代码 看 起 来 像 下 面 的 样子 : 


#! python3 
# formFiller.py - Automatically fills in the fornm. 


Import pyautogui, time 

# TODO: Give the user a chance to kill the script. 
# TODO: Wait until the form page has loaded. 

# TODO: Fill out the Name Field. 

# TODO: Fill out the Greatest Fear(s) field. 

# TODO: Fill out the Source of Wizard Powers field. 
# TODO: Fill out the RoboCop field. 

# TODO: Fill out the Additional Comments field. 

# TODO: Click Submit. 

# TODO: Wait until form page has loaded. 


# TODO: Click the Submit another response link. 


现在 你 需要 实际 想 要 输入 这 张 表格 的 数据 。 在 真实 世界 中 ， 这 些 数据 可 能 来 自 电 子 表格 、 
纯 文本 文件 或 某 个 网 站 。 可 能 需要 编写 额外 的 代码 ， 将 数据 加 载 到 程序 中 。 但 对 于 这 个 项 目 ， 
只 需要 将 这 些 数据 硬 编码 给 一 个 变量 。 在 程序 中 加 入 以 下 代码 : 

#! python3 

# formFiller.py - Automatically fills in the form. 

--SNip-- 


formData = [{'name': 'Alice', 'fear’': 'eavesdroppers', 'source': 'wand', 
'robocop': 4, 'comments': 'Tell Bob I said hi.'}, 
{'name': 'Bob', 'fear': 'bees', 'source': ‘'amulet', 'robocop': 4, 
‘comments': 'n/a'}, 
{'name': 'Carol', 'fear': 'puppets', 'source': ‘'crystal ball', 
'robocop': 1, 'comments': 'Please take the puppets out of the 
break room.'}, 
{'name': "Alex Murphy', ‘fear': 'ED-209', 'source': ‘money', 
'robocop': 5, 'comments': 'Protect the innocent. Serve the public 
trust. Uphold the law.'}, 


-~-SN1ip-- 

formData 列表 包含 4 个 字典 ， 针 对 4 个 不 同 的 名 字 。 每 个 字典 都 有 文本 字段 的 名 字 作 为 键 ， 
响应 作为 值 。 最 后 一 点 准备 是 设置 PyAutoGUI 的 PAUSE 变量 ， 在 每 次 函数 调用 后 等 待 半 秒 。 在 程 
序 的 formData 赋值 语句 后 ， 添 加 下 面 的 代码 : 


pyautogui.PAUSE = 0.5 
print('Ensure that the browser window is active and the form is loaded!') 20 
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第 3 步 : 开始 输入 数据 


for 循环 将 迭代 formData 列表 中 的 每 个 字典 ， 将 字典 中 的 值 传递 给 PyAutoGUI 函数 ， 
它们 会 实际 在 文本 输入 区 输入 。 
在 程序 中 添加 以 下 代码 : 


#1!1 python3 
# formFiller.py - Automatically fills in the form. 


--Snip-- 
for person in formData: 
# Give the user a chance to Kkill the script. 
print('>>> 5-SECOND PAUSE TO LET USER PRESS CTRL-C <<<') 
0 time.sleep(5) 


--SN1p-- 

作为 一 个 小 的 安全 功能 ， 该 脚本 有 5 秒 暂 停 @。 如 果 发 现 程序 在 做 一 些 预 期 之 外 的 事 ， 这 
让 用 户 有 机 会 按 Ctrl-C 快捷 键 (或 将 鼠标 指针 移 到 屏幕 的 左上 角 ， 触 发 FailSafeException 
异常 )， 从 而 关闭 程序 。 在 等 待 页 面 加 载 时 间 的 代码 之 后 ， 添 加 以 下 代码 : 


#! python3 
# formFiller.py - Automatically fills in the form. 


--SNip-- 


© print('Entering %s info...' % (person['name'])) 
@ pyautogui.write(['\t'’, '\t']) 


# Fill out the Name field. 
© pyautogui .write(person['name'] + ‘'\t') 


# Fill out the Greatest Fear(s) field. 
@ pyautogui.write(person['fear'] + ‘'\t') 


--SNip-- 

我 们 添加 了 临时 的 print () 调 用 @,， 在 命令 行 窗 口中 显示 程序 的 状态 ,让 用 户 知道 进展 。 

既然 程序 知道 表格 已 经 加 载 ,就 可 以 调用 pyautogui.write(['\t','\t']) 按 Tab 键 两 次 ， 
让 Name 输入 框 取得 焦点 @， 然后 调用 write(), 输入 person[ 'name ' ] 中 的 字符 串 @. 字符 串 末 
尾 加 上 了 ' \t' 字 符 ， 模 拟 按 Tab 键 ， 它 将 输入 焦点 转向 下 一 个 输入 框 : Greatest Fear(s)。 骨 一 次 调用 
write (), 将 在 这 个 输入 框 中 输入 person[ 'fear ' ] 中 的 字符 串 , 然后 按 Tab 键 跳 到 表格 的 下 一 个 
输入 框 @。 


第 4 步 : 处 理 选 择 列表 和 单 选 按钮 


“wizard powers ”问题 的 下 拉 列 表 和 Robocop 字段 的 单 选 按钮 处 理 起 来 比 文本 框 输入 需要 更 
多 技巧 。 要 用 鼠标 点 选 这 些 选 项 ， 你 必须 搞 清楚 每 个 可 能 选项 的 x、y 坐标 。 然 而 ， 用 箭头 键 来 
选择 会 比较 容易 。 
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在 程序 中 加 入 以 下 代码 : 


#1! python3 
# formFiller.py - Automatically fills in the form. 


- -SNip-- 


# Fill out the Source of Wizard Powers field. 
© if person['source'] == 'wand': 
@ pyautogui.write(['down', '\t'] ， 0.5) 
elif person['source'] == 'amulet': 
pyautogui.write(['down'，'down'，'\t'] ,0.5) 


elif person['source'] == 'crystal ball': 
pyautogui.write(['down'，'down'，'down'，'\t'] ,0.5) 
elif person['source’'] == 'money': 


pyautogui.write(['down', 'down’, 'down', 'down', '\t'] , 0.5) 


# Fill out the RoboCop field. 
© if person['robocop'] == 1: 
@ pyautogui.write([' ', '\t'] ，0.5) 
elif person['robocop'] == 2: 
pyautogui.write(['right', '\t'] ， 0.5) 


elif person[ 'robocop'] == 3: 
pyautogui.write(['right'，'right'，'\t'] ，0.5) 
elif person['robocop'] == 4: 
pyautogui,.write(['right', ‘right', 'right', '\t'] ，0.5) 
elif person['robocop'] == 5: 


pyautogui.write(['right’, ‘'right', 'right', ‘'right', ‘\t'] ，0.5) 


-~-SNip-- 


在 下 拉 列 表 获 得 焦点 后 (回忆 一 下 ， 你 写 了 代码 ， 在 填充 Greatest Fear(s) 输 入 框 后 模拟 了 


按 Tab 键 )， 按 向 下 键 ， 就 会 移动 到 选择 列表 的 下 一 项 。 根 据 person['source'] 中 的 值 ， 你 
的 程序 知道 应 该 发 出 几 次 按 向 下 键 的 命令 ， 然 后 切换 到 下 一 个 输入 区 。 如 果 这 个 用 户 词典 中 的 
'source' 键 的 值 是 'wand' @， 我 们 模拟 按 问 下 键 一 次 (选择 Wand)， 并 按 Tab 键 @。 如 果 
'source' 键 的 值 是 'amulet', 模拟 按 向 下 键 两 次 , 并 按 Tab 键 。 对 其 他 可 能 的 值 也 是 类 似 的 。 

Robocop 问题 的 单 选 按钮 ， 可 以 用 向 右键 来 选择 。 或 者 ， 如 果 你 想 选 择 第 一 个 选项 晶 ， 就 
按 空格 键 @。 


第 5 步 : 提交 表单 并 等 待 


可 以 用 函数 write() 填 写 Additional Comments 输入 框 , 将 person['comments'] 作 为 参 
数 。 你 可 以 另外 输入 '\t'， 将 焦点 移 到 下 一 个 输入 框 或 Submit 按钮 。 当 Submit 按钮 获得 焦点 
后 ， 调 用 pyautogui.press('enter')， 模拟 按 回 车 键 ， 提 交 表 单 。 在 提交 表单 之 后 ， 程 序 
将 等 待 5 秒 ， 等 待 下 一 页 加 载 。 
在 新 页 面 加 载 之 后 ， 它 会 有 一 个 Submit another response 链接 ， 让 浏览 器 转向 一 个 新 的 、 全 
空 的 表单 页 面 。 在 第 2 步 ， 你 已 将 这 个 链接 的 坐标 作为 元 组 保存 在 submitAnotherLink 中 ， 
所 以 将 这 些 坐 标 传递 给 pyautogui.click()， 单 击 这 个 链接 。 
新 的 表单 准备 好 后 , 脚本 的 外 层 for 循环 将 继续 下 一 次 迭代 , 在 表单 中 输入 下 一 个 人 的 信息 。 
添加 以 下 代码 ， 完 成 你 的 程序 : 
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#! python3 
# formFiller.py - Automatically fills in the form. 


--SNip--~ 


# Fill out the Additional Comments field. 
pyautogui.write(person['comments’'] + ‘'\t') 


# "Click" Submit button by pressing Enter . 
time.sleep(0.5) # Wait for the button to activate. 
pyautogui.press('enter ') 

# Wait until form page has loaded. 
print('Submitted form。') 

time.sleep(5) 


# Click the Submit another response link. 
pyautogui.click(submitAnotherLink[0], submitAnotherLink[1]) 


在 主 for 循环 完成 后 ， 程 序 应 该 已 经 插入 了 每 个 人 的 信息 。 在 这 个 例子 中 ， 只 有 4 个 人 要 
输入 。 但 如 果 有 4000 个 人 ， 那 么 编程 来 完成 这 个 任务 将 节省 大 量 的 输入 时 间 。 


20.14 显示 消息 框 


到 目前 为 止 , 你 所 编写 的 程序 都 使 用 纯 文 本 输出 (使 用 print() 函 数 ) 和 输入 (使 用 input() 
函数 )。 然 而 ，PyAutoGUI 程序 会 将 你 的 整个 桌面 作为 它 的 游乐 场 。 你 的 程序 运行 的 基于 文本 
的 窗口 , 无 论 是 Mu 还 是 命令 行 窗口 , 可 能 都 会 因为 PyAutoGUI 程序 的 单 击 及 与 其 他 窗口 的 交 
互 而 失去 焦点 。 如 果 Mu 或 命令 行 窗口 隐藏 在 其 他 窗口 下 ， 这 可 能 会 让 用 户 的 输入 和 输出 变 得 
困难 。 

为 了 解决 这 个 问题 ,PyAutoGUI 提供 了 弹出 式 消 息 框 来 向 用 户 提 供 通知 并 接收 用 户 的 输入 。 
有 以 下 4 个 消息 框 函 数 。 

pyautogui.alert(text): 显示 文本 text， 并 有 一 个 确定 按钮 。 

pyautogui.confirm(text): 显示 文本 ， 并 有 确定 和 取消 按钮 ， 根 据 单 击 的 按钮 返回 ' OK' 
或 'Cancel ' 。 

pyautogui .prompt(text): 显示 文本 text， 并 有 一 个 文本 字段 供用 户 输入 ， 它 以 字符 
串 的 形式 返回 。 

pyautogui.password(text): 与 prompt() 相 同 ， 但 会 显示 星 号 ， 这 样 用 户 可 以 输入 
敏感 信息 ， 如 口令 。 

这 些 函 数 也 有 可 选 的 第 二 个 参数 ， 它 接收 一 个 字符 串 值 作为 消息 框 标题 栏 中 的 标题 。 这 些 
盟 数 在 用 户 单 击 技 钮 后 才 会 返回 ， 因 此 它们 也 可 以 用 来 在 PyAutoGUI 程序 中 引入 暂停 。 在 交互 
式 环 境 中 输入 以 下 内 容 : 


>>> Import pyautogui 
>>> pyautogui.alert('This is a message.', 'Important ') 
ET 他 


>>> pyautogui.confirm('Do you want to continue?') # Click Cancel 
“Cancel' 

>>> pyautogui.prompt("What is your cat's name?") 

'Zophie' 
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>>> pyautogui.password('What is the password?') 
'hunter2 


这 些 行 所 产生 的 弹出 消息 框 如 图 20-8 所 示 。 


A ey ~ Re 

| | Do you want to continue? 

| Ce 
~ DOD x i/ - OO x 
| Whal is your caf's name? ' Whal hs he password? 
| Zophid 2 | | ee Ps es 
We | | < | 


图 20-8 ”从 左上 方 到 右 下 方 ， 分 别 为 由 alert()、confirm()、prompt() 和 password() 创 建 的 窗口 


这 些 函数 可 用 于 提供 通知 或 向 用 户 提问 ， 而 程序 的 其 他 部 分 通过 鼠标 和 键盘 与 计算 机 进行 
交互 。 


20.15 小结 


用 pyautogui 模块 实现 GUI 自动 化 ， 通 过 控制 键盘 和 鼠标 ， 让 你 与 计算 机 上 的 应 用 程序 
交互 。 有 虽然 这 种 方式 相当 灵活 ， 可 以 做 任何 人 类 用 户 做 的 事情 ， 但 也 有 不 足 之 处 ， 即 这 些 程序 
对 它们 的 单 击 和 输入 是 相当 盲目 的 。 在 编写 GUI 自动 化 程序 时 ， 请 试 着 确保 它们 在 得 到 错误 指 
令 时 快速 般 溃 。 衣 省 很 烦人 ， 但 比 程序 继续 错误 地 执行 要 好 得 多 。 

利用 PyAutoGUI， 你 可 以 在 屏幕 上 移动 鼠标 指针 ， 模 拟 鼠 标 单 击 、 按 键 和 按 快捷 键 。 
pyautogui 模块 也 能 检查 屏幕 上 的 颜色 ， 让 GUI 自动 化 程序 对 屏幕 内 容 有 足够 的 了 解 ， 知 道 
它 是 否 有 偶 差 。 甚 至 可 以 回 它 提供 一 个 屏幕 快照 ， 让 它 找 出 你 希望 单 击 的 区 域 坐标 。 

可 以 组 合 使 用 所 有 这 些 PyAutoGUI 功能 ， 在 计算 机 上 自动 化 执行 重复 任务 。 实 际 上 ， 看 着 
鼠标 指针 自己 移动 ， 看 着 文本 自动 出 现在 屏幕 上 ， 这 是 彻头彻尾 的 催眠 。 为 什么 不 用 节省 下 来 
的 时 间 ， 舒 舒服 服 地 坐 着 ， 看 着 程序 为 你 工作 ? 看 着 你 的 聪明 才智 帮 你 完成 繁琐 的 工作 ， 肯 定 
会 让 你 感到 满意 。 


20.16 习题 


1. 如 何 触发 PyAutoGUI 的 失效 保护 来 停止 程序 ? 
2. 什么 函数 返回 当前 的 分 辩 率 ? 

3. 什么 函数 返回 鼠标 指针 当前 位 置 的 坐标 ? 

4. pyautogui.moveTo() 和 pyautogui.move() 消 数 之 间 的 区 别 是 什么 ? 
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什么 函数 用 于 拖 放 鼠 标 指针 ? 

调用 什么 函数 将 替 你 输入 字符 串 "Hello，world!"? 

.如 何 模拟 按 向 左 键 这 样 的 特殊 键 ? 

.如何 将 当前 屏幕 的 内 容 保 存 为 图 形 文 件 并 命名 为 screenshot.png? 

. 什么 代码 能 够 设置 每 次 PyAutoGUI 函数 调用 后 暂停 两 秒 ? 

10. 如 果 你 想 在 网 页 浏览 器 内 自动 单 击 和 按键 ， 应 该 使 用 PyAutoGUI 还 是 Selenium? 
. 是 什么 让 PyAutoGUI 容易 出 错 ? 

12. 如 何在 屏幕 上 找到 每 一 个 标题 中 包含 文本 Notepad 的 窗口 的 大 小 ? 

13， 如 何 使 Firefox 浏览 器 成 为 活动 窗口 ， 显 示 在 屏幕 上 的 其 他 每 一 个 窗口 前 面 ? 


20.17 ”实践 项 目 
作为 实践 ， 编 程 完成 下 面 的 任务 。 


20.17.1 看 起 来 很 忙 


许多 即时 通信 程序 通过 一 段 时 间 内 鼠标 指针 不 动 〈 例 如 10 分 钟 )， 来 判断 你 空闲 或 离开 了 
计算 机 。 也 许 你 想 从 计算 机 旁边 溜 走 一 段 时 间 ， 但 不 想 让 别人 看 到 你 的 即时 通信 软件 转 为 空闲 
状态 。 请 编写 一 段 脚本 ， 每 隔 10 秒 稍微 动 一 下 鼠标 指针 。 这 种 移动 应 该 相当 小 ， 以 便 在 脚本 运 
行 时 ， 如 果 你 需要 使 用 计算 机 ， 它 也 不 会 给 你 制造 麻烦 。 


20.17.2 ”使 用 剪贴 板 读 取 文 本 字段 


虽然 你 可 以 用 pyautogui .write( ) 疝 应 用 程序 的 文本 字段 发 送 按键 命令 ， 但 你 不 能 单独 
使 用 PyAutoGUI 来 读 取 已 经 在 文本 字段 内 的 文本 。 这 时 候 pyperclip 模块 就 可 以 提供 帮助 。 
你 可 以 使 用 PyAutoGUI 来 获取 一 个 文本 编辑 器 (如 Mu 或 记事 本 ) 的 窗口 ， 通 过 单 击 它 ， 让 它 
取得 焦点 ， 在 文本 字段 内 单 击 ， 然 后 按 Ctrl-A 或 Command-A 快捷 键 “选择 全 部 内 容 ”， 按 Ctrl-C 
或 Command-C 快捷 键 “ 复 制 到 前 贴 板 ”。 然 后 你 的 Python 脚本 可 以 通过 运行 Import pyperclip 
和 pyperclip.paste() 来 读 取 前 贴 板 文本 。 

编写 一 个 程序 ， 按 照 这 个 过 程 从 窗口 的 文本 字段 复制 文本 。 使 用 pyautogui . 
getWindowsWithTitle('Notepad') (或 你 选择 的 任何 一 个 文本 编辑 器 ) 获得 一 个 Window 
对 象 。 这 个 Window 对 象 的 top 和 left 属性 可 以 告诉 你 这 个 窗口 在 哪里 ， 而 activate() 方 
法 将 确保 tos 然后 ， 你 可 以 用 pyautogui. ri ie 主义 本 输 


调用 i ea ER 和 WA rt Cir ) 来 选择 所 
有 的 文本 并 复制 到 前 贴 板 上 。 最 后 ， 调 用 pyperclip.paste() 从 前 贴 板 中 获取 文本 ， 并 将 它 
粘贴 到 你 的 Python 程序 中 。 在 那里 ， 你 可 以 随意 使 用 这 个 字符 串 ， 但 现在 只 珊 将 它 传递 给 
print{)s 
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请 注意 ，PyAutoGUI 的 窗口 函数 只 在 PyAutoGUI 1.0.0.0 版 本 的 Windows 操作 系统 上 工作 ， 在 
macOS 或 Linux 操作 系统 上 不 能 工作 。 


20.17.3 即时 通信 机 器 人 


Google Talk、Skype、Yahoo Messenger、AIM 和 其 他 即时 通信 应 用 通常 使 用 专 有 协议 ， 让 其 他 人 
很 难 通过 编写 Python 模块 与 这 些 程序 交互 。 但 即使 是 这 些 专 有 协议 ， 也 不 能 阻止 你 编写 GUI 自动 化 
工具 。 

Google Talk 应 用 有 一 个 搜索 条 ， 让 你 在 输入 朋友 列表 中 的 用 户 名 并 按 回 车 键 时 ， 打 开 一 个 
消息 窗口 。 键 盘 焦点 自动 移 到 那个 新 的 窗口 。 其 他 即时 通信 应 用 也 有 类 似 的 方式 来 打开 新 的 消 
上 县 窗口 。 请 编写 一 个 应 用 程序 ， 向 朋友 列表 中 选 定 的 一 组 人 发 出 一 条 通知 消息 。 程 序 应 该 能 够 
处 理 异 党 情况， 例如 朋友 离线 ， 聊 天 窗口 出 现在 屏幕 上 不 同 的 位 置 ， 或 确认 对 话 框 打 断 输入 消 
息 。 程 序 必须 使 用 屏幕 快照 ， 指 导 它 的 GUI 交互 ， 并 在 虚拟 按键 发 送 之 前 采用 各 种 检测 方式 。 


注意 : 你 可 能 需要 建立 一 些 假 的 测试 账户 ,这样 就 不 会 在 编写 这 个 程序 时 不 小 心 打扰 真正 的 朋友 。 


20.17.4” 玩 游戏 机 器 人 指南 


有 一 个 很 不 错 的 指南 ， 其 名 为 How to Build a Python Bot That Can Play Web Games， 可 以 在 No 
Starch 出 版 社 官网 本 书 对 应 页 面 中 找到 。 这 份 指南 解释 了 如 何 用 Python 创建 一 个 GUI 自动 化 程 
序 ， 玩 一 个 名 为 Sushi Go Round 的 Flash 游戏 。 玩 这 个 游戏 需要 单 击 正确 的 Submit 按钮 ， 填 写 
客户 的 寿司 订单 。 填 写 无 错 且 订 单 越 快 ， 得 分 就 越 高。 这 个 任务 特别 适合 GUI 自动 化 程序 ， 
为 可 以 作 次 得 到 高 分 。 

这 份 指南 包含 了 本 章 介 绍 的 许多 主题 ， 也 涉及 PyAutoGUI 的 基本 图 像 识 别 功能 。 这 个 机 
器 人 的 源 代码 和 机 器 人 于 游戏 的 视频 可 以 分 别 在 GitHub 和 YouTube 找到 。 


安装 第 三 万 模块 


除了 Python 自 带 的 标准 库 ， 许 多 开发 者 自己 还 写 了 一 些 模块 ， 进 一 步 
区 的 功能 。 本 Python 的 ip 汉 本 


-py PyPI ( 即 de 过 引 ) 就 像 是 Python 模块 的 免费 应 
用 程序 商店 。 


虽然 在 Windows 操作 系统 和 macOS 上 pip 会 随 Python3.4 目 动 安装 ， 但 
在 Linux 操作 系统 上 ， 必 须 单 独 安装 。 你 可 以 通过 在 命令 行 窗 口中 运行 pip3 ey Linux ge 
系统 上 是 否 已 经 安装 了 pip。 如 果 已 经 安装 了 ， 你 会 看 到 pip3 的 位 置 显示 ; 否则 ， 什 么 也 不 会 

显示 。 要 在 Ubuntu Linux 或 Debian Linux 操作 系统 上 安装 pip3， 就 打开 一 个 新 的 命令 行 窗口 ， 
输入 sudo apt-get install python3-pip。 要 在 Fedora Linux 操作 系统 上 安装 pip3， 右 在 
命令 行 窗 口 输入 sudo yum install python3-pip。 为 了 安装 这 个 软件 ， 需 要 输入 计算 机 的 管 
理 员 密 码 。 

pip 工具 在 命令 行 〈 也 叫 终 窗口 中 运行 ， 而 不 是 在 Python 的 交互 式 环境 中 运行 。 在 
Windows 操作 系统 上 ， ee “命令 提示 符 ” 程 序 。 在 macOS 上 ， 从 Spotlight 中 
运行 Terminal。 在 Ubuntu Linux 操作 系统 上 , 从 Ubuntu Dash 中 运行 Terminal, 或 者 按 Ctrl-Alt-T 
快捷 键 。 

如 果 pip 的 文件 夹 没有 在 PATH 环境 变量 中 列 出 , 你 可 能 需要 在 运行 pip 之 前 在 命令 行 窗口 
中 用 cd 命令 更 改 目 录 。 如 果 你 需要 知道 你 的 用 户 名 , 那么 可 以 在 Windows 操作 系统 上 运行 echo 
echo %USERNAME%, 在 macOS 和 Linux 操作 系统 上 运行 whhoami。 然后 运行 cd <pip's folder>， 
其 中 pip's folder 在 Windows 操作 系统 上 是 C:\Users\Users<USERNAME>\ AppData\Local\ 
Programs\Python\Python37\Scripts。 在 macOS 上 ， 它 在 /Library/ Frameworks/Python. framework/ 
Versions/3.7/bin/。 在 Linux 操作 系统 上 ， 它 在 /home/<USERNAME>/.local/bin/。 然 后 你 就 可 以 在 
正确 的 文件 夹 中 运行 pip 工具 了 。 
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A.2 安装 第 三 方 模块 


pip 工具 的 可 执行 文件 在 Windows 操作 系统 上 叫 pip， 在 macOS 和 Linux 操作 系统 上 叫 
pip3。 在 命令 行 中 ， 你 可 以 向 它 传 入 命令 instal1， 并 在 后 面 加 上 你 要 安装 的 模块 名 称 。 在 
Windows 操作 系统 上 ， 你 可 以 输入 pip _ install - -user MODULE， 其 中 MODULE 是 模块 
的 名 称 。 

由 于 未 来 对 这 些 第 三 方 模块 的 修改 可 能 会 出 现 向 后 不 兼容 的 情况 ， 因 此 我 建议 你 安装 本 书 中 使 
用 的 确切 版 本 ， 如 本 节 后 面 给 出 的 版 本 。 你 可 以 在 模块 名 称 的 末尾 加 上 -U MODULE==VERSION 来 
安装 特定 的 版 本 。 请 注意 ， 在 这 个 命令 行 选 项 中 有 两 个 等 号 。 例 如 ，pip install --user -U 
send2trash==1.5.0 表示 安装 了 1.5.0 版 本 的 send2trash 模块 。 

你 可 以 从 No Starch 出 版 社 官 网 本 书 对 应 页 面 中 下 载 你 的 操作 系统 “需要 的 ”文件 ， 并 运 
行 以 下 命令 之 一 ， 从 而 安装 本 书 中 涉及 的 所 有 模块 。 

口 在 Windows 操作 系统 上 : 


pip install --user —r automate-win-requirements.txt --USer 


口 在 macOS 上 : 


pip3 install --user —r automate-mac-requirements.txt --user 


U 在 Linux 操作 系统 上 : 


pip3 install --user -rr automate-linux-requirements.txt --user 


下 面 的 列表 包含 了 本 书 使 用 的 第 三 方 模块 及 其 版 本 。 如 果 你 只 想 在 计算 机 上 安装 其 中 的 几 
个 模块 ， 可 以 单独 输入 这 些 命令 。 

DQ pip install --user send2trash==1.5.0 

DQ pip install --user requests==2.21.0 

DQ pip install --user beautifulsoup4==4.7.1 

DQ pip install --user Selenium==3.141.0 

DQ pip install --user openpyxl==2.6.1 

DQ pip install --user PyPDF2==1.26.0 

口 pip install --user python-docx==0.8.10( 安 装 python-docx, 而 不 是 docx) 

DQ pip install --USer imapclient==2.1.0 

DQ pip install --user pyzmail36==1.0.4 

DQ pip install --user twilio 

DQ pip install --user ezgmail 

DQ pip install --user ezsheets 

D pip install --user pillow==6.0.0 

D pip install --user pyobjc-framework-Quartz==5.2( 仅 macOS) 

D pip install --user pyobjc-core==5.2( 仅 macOS) 
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OD pip install --user pyobjc==5.2 ( 仅 macOS) 
D pip install --user python3-xlib==0.15( 仅 Linux) 
DQ pip install --user pyautogui 


注意 : 对 于 macOS 用 户 : pyobjc 模 块 需要 20 分 钟 或 更 长 的 时 间 来 安装 ， 因 此 ， 如 果 它 安装 了 较 长 时 间 ， 
不 要 惊慌 。 应 该 先 安装 pyobjc-core 模 块 ， 这 将 减少 整体 安装 时 间 。 


在 安装 模块 后 , 你 可 以 在 交互 式 环境 中 运行 jmport ModuleName 来 测试 它 是 否 安装 成 功 。 
如 果 没 有 显示 错误 信息 ， 就 可 以 认为 模块 安装 成 功 了 。 

如 果 你 已 经 安装 了 模块 ,但 想 将 其 升级 到 PyPI 上 的 最 新 版 本 , 请 运行 pip install - -User 
-U MODULE (或 在 macOS 和 Linux 操作 系统 上 运行 pip3 install --user --U MODULE)。 
--User 选项 会 将 模块 安装 在 你 的 主 目录 下 。 这 样 可 以 避免 在 为 所 有 用 户 安装 时 可 能 遇 到 的 潜 
在 权限 错误 。 

最 新 版 本 的 selenium 和 openpyx1l 模块 往往 会 有 一 些 变化 , 与 本 书 中 使 用 的 版 本 不 兼容 。 
另 一 方面 ，twilio、ezgmail 和 ezsheets 模块 会 与 在 线 服务 交互 ， 你 可 能 需要 使 用 pip 
install --user -U 命令 安装 这 些 模 块 的 最 新 版 本 。 


警告 : 本 书 的 第 一 版 建议 ， 如 果 你 在 运行 Dip 时 遇 到 权限 错误 ， 可 以 使 用 Sudo 命 令 : Sudo pip install 
module。 这 是 一 种 糟糕 的 操作 ， 因 为 它 将 模块 安装 到 你 的 操作 系统 使 用 的 Python 安装 中 。 你 的 
操作 系统 可 能 会 运行 Python 脚本 来 执行 系统 相关 的 任务 ， 如 果 你 在 这 个 Python 安装 中 安装 的 模块 
与 它 的 现 有 模块 相 冲 突 ， 可 能 会 产生 难以 修复 的 bug。 因 此 在 安装 Python 模块 时 ， 千 万 不 要 使 用 
Sudo。 


A.3 为 Mu 编辑 器 安 效 模块 


Mu 编辑 器 有 自己 的 Python 环境 ， 该 环境 与 典型 的 Python 安装 环境 不 同 。 要 安装 模块 ， 以 
便 在 Mu 启动 的 脚本 中 使 用 它们 ， 你 必须 单 击 Mu 编辑 器 右 下 角 的 齿轮 图 标 来 打开 管理 面板 。 
在 出 现 的 窗口 中 ， 单 击 第 三 方 软件 包 选 项 卡 ， 然 后 按照 提示 安装 模块 。 在 Mu 中 安装 模块 的 功 
能 还 在 开发 中 ， 因 此 这 些 说 明 可 能 会 有 变化 。 

如 果 你 无 法 使 用 管理 员 面 板 安装 模块 ， 也 可 以 打开 一 个 命令 行 窗口 ， 运 行 Mu 编辑 器 专用 的 
pip 工具 。 必须 使 用 pip 的 -target 命令 行 选 项 来 指定 Mu 的 模块 文件 夹 。 在 Windows 操作 系统 中 ， 
这 个 文件 夹 是 C:\Users\<USERNAME>\AppData\Local\Mu\ pkgs。 在 macOS 操作 系统 上 ， 这 个 
文件 夹 是 /Applications/mu-editor.app/Contents/Resources/app packages。 在 Linux 操作 系统 上 ， 
你 不 需要 输入 -target 参数 ， 只 需 正 常 运 行 pip3 命令 即 可 。 

例如 ， 当 你 下 载 了 操作 系统 需要 的 文件 后 ， 运 行 下 面 的 命令 。 

口 在 Windows 操作 系统 上 : 


pip install -r automate-win-requirements.txt --target "C:\Users\USERNAME\ 
AppData\Local\Mu\pkgs" 
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口 在 macOS 上 : 


pip3 install —r automate-mac-requirements .txt --target /Applications/ 
mu-editor.app/Contents/Resources/app_packages 


DQ 在 Linux 操作 系统 上 : 


pip3 install --user -rr automate-linux-requirements.txt 
如 果 你 只 想 安 装 部 分 模块 ， 你 可 以 运行 普通 的 pip (或 pip3) 命令 ， 并 添加 - -target 
数 。 


如 果 你 在 Mu 中 打开 了 一 个 程序 ， 运行 它 很 简单 ， 按 F5 键 或 单 击 窗口 
顶部 的 Run 按钮 均 可 以 。 这 是 在 编程 时 运行 程序 的 最 简单 方法 ,但 打开 Mu 
来 运行 已 完成 的 程序 可 能 有 点 麻烦 。 根 据 你 用 的 操作 系统 ， 执 行 Python 脚 


本 还 有 更 方便 的 方法 。 z 


“视频 讲解 


B.1 从 命令 行 窗口 运行 程序 


当 你 打开 一 个 命令 行 窗口 (如 Windows 操作 系统 上 的 Command Prompt 或 macOS 和 Linux 
操作 系统 上 的 Terminal)， 你 会 看 到 一 个 基本 空白 的 窗口 ， 你 可 以 在 其 中 输入 文本 命令 。 你 可 以 
在 命令 行 窗口 中 运行 程序 , 但 如 果 你 不 习惯 的 话 , 通过 命令 行使 用 计算 机 可 能 会 让 人 望 而 生 晨 : 
与 图 形 化 的 用 户 界面 不 同 ， 它 不 提供 任何 提示 来 告诉 你 应 该 做 什么 。 

在 Windows 操作 系统 上 ， 要 打开 命令 行 窗 口 ， 请 单 击 “ 开 始 ” 按 钮 ， 进 入 “命令 提示 符 ” 
然后 按 回 车 键 。 在 macOS 上 ， 单 击 右 上 和 角 的 Spotlight 图 标 ， 输 入 Terminal， 然 后 按 回 车 键 。 在 
Ubuntu Linux 操作 系统 上 , 你 可 以 按 win 键 调 出 Dash, 输入 Terminal, 然后 按 回 车 键 。 在 Ubuntu 
Linux 操作 系统 上 ， 按 快捷 键 Ctrl-Alt-T 也 会 打开 一 个 命令 行 窗口 。 

就 像 交互 式 shell 有 一 个 “>>>” 提 示 符 一 样 ， 命 令 行 也 会 显示 一 个 提示 符 供 你 输入 命令 。 
在 Windows 操作 系统 中 ， 它 是 你 当前 所 在 文件 夹 的 完整 路 丛 : 

C:\Users\Al>your commands go here 

在 macOS 上 ,提示 符 显 示 的 是 你 的 计算 机 名 称 、 冒 号 、 当 前 工作 目录 〈 你 的 主 文件 夹 表 示 
为 ~) 和 你 的 用 户 名 ,后面 是 类 元 从 号 〈$): 

Als-MacBook-Pro:~ al$ your commands go here 

在 Ubuntu Linux 操作 系统 上 ， 提 示 符 与 macOS 类 似 ， 只 是 它 以 用 户 名 和 @ 开 头 : 

aleal-VirtualBox:-$ your commands go here 

可 以 自 定义 这 些 提示 ， 但 这 超出 了 本 书 的 范围 

当 你 输入 一 个 命令 时 ， 例 如 Windows 操作 系统 上 的 python 或 macOS 和 Linux 操作 系统 
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上 的 python3, 命令 行 会 检查 你 当前 所 在 的 文件 夹 中 是 否 有 这 个 名 字 的 程序 .如果 没 有 找到 它 ， 
它 将 检查 PATH 环境 变量 中 列 出 的 文件 夹 。 你 可 以 把 “环境 变量 ”看 成 整个 操作 系统 的 变量 。 它 们 
会 包含 一 些 系统 设置 。 要 查看 存储 在 PATH 环境 变量 中 的 值 ， 请 在 Windows 操作 系统 上 运行 echo 
%PATH%， 在 macOS 和 Linux 操作 系统 上 运行 echo $PATH。 下 面 是 macOS 上 的 一 个 例子 : 


Als-MacBook-Pro:~ al$ echo $PATH 
/Library/Frameworks/Python.framework/Versions/3.7/bin:/usr/local/bin:/usr/ bin:/ 
bin: /usr/sbin:/sbin 


在 macOS 上 ，python3 程序 文件 位 于 /Library/Frameworks/Python.framework/Versions/3.7/bin 
文件 夹 中 ， 因 此 你 不 需要 输入 /Library/Frameworks/Python.framework/Versions/3.7/ 
bin/python3， 也 不 需要 先 切 换 到 该 文件 夹 ， 就 可 以 运行 它 ; 你 可 以 从 任何 文件 夹 中 输入 
python3， 命 令 行 会 在 PATH 环境 变量 的 文件 夹 中 找到 它 。 将 程序 的 文件 夹 添 加 到 PATH 环境 
变量 中 是 一 种 方便 的 快捷 方式 。 

如 果 你 想 运 行 一 个 .py 程序 ， 你 必须 在 .py 文件 名 后 面 输入 python (或 python3 )。 这 将 运 
行 Python， 同 时 ，Python 将 运行 它 在 .py 文件 中 找到 的 代码 。 在 Python 程序 运行 完成 后 ， 你 将 
返回 到 命令 行 提 示 符 。 例 如 ， 在 Windows 操作 系统 上 ， 一 个 简单 的 “Hello，world!” 程 序 会 是 
这 样 的 : 


Microsoft Windows [Version 10.0.17134.648] 
(c) 2018 Microsoft Corporation. All rights reserved. 


C:\Users\Al>python hello.py 
Hello, world! 


C:\Users\Al> 


在 不 带 任 何 文件 名 的 情况 下 运行 python (或 python3), 会 导致 Python 启动 交互 式 环境 。 


B.2 在 Windows 操作 系统 上 运行 Python 程序 


还 有 一 些 其 他 的 方法 可 以 在 Windows 操作 系统 上 运行 Python 程序 。 你 可 以 不 打开 命令 行 窗口 来 
运行 Python 脚本 ， 而 是 按 win-R 快捷 键 来 打开 “运行 ” 对话 框 ， 然 后 输入 py C:\path\to\your\ 
pythonScript.py， 如 图 B-1 所 示 。py.exe 程序 安装 在 C:\Windows\py.exe， 它 已 经 在 PATH 环 
境 变 量 中 ， 运 行程 序 时 .exe 扩展 名 是 可 省 略 的 。 


三 Run XxX ] 


Type the name of a program. folder, document. or 
Internet resource, and Windows will open it for you. 
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图 B-1 Windows 操作 系统 上 的 “运行 ”对 话 框 
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这 种 方法 的 缺点 是 ， 你 必须 输入 脚本 的 完整 路 径 。 另 外 ， 虽 然 从 对 话 框 中 运行 你 的 Python 
人 但 当 程 序 结束 时 ， 这 个 窗口 会 自动 关闭 ， 你 
可 能 会 错过 一 些 输出 。 

你 可 以 通过 创建 一 个 批 处 理 脚 本 来 解决 这 些 问题 ， 批 处 理 脚本 是 一 个 带 有 .bat 文件 扩展 名 
的 小 文本 文件 ， 可 以 运行 多 个 命令 行 命令 ， 很 像 macOS 和 Linux 操作 系统 中 的 shell 脚本 。 你 
可 以 使 用 记事 本 等 文本 编辑 器 来 创建 这 些 文件 。 

要 创建 一 个 批 处 理 文件 ， 请 创建 一 个 新 的 文本 文件 ， 其 中 包含 一 行文 字 ， 就 像 这 样 : 


@py.exe C:\path\to\your\pythonScript.py %* 
@pause 


用 你 自己 的 程序 的 绝对 路 径 替 换 这 个 路 径 ， 并 以 .bat 作为 扩展 名 保存 这 个 文件 (例如 
pythonScript.bat)。 每 个 命令 开头 的 @ 号 可 以 防止 它 在 命令 行 窗口 中 显示 ， 而 %* 则 将 在 批 处 理 文 
件 名 之 后 输入 的 所 有 命令 行 参数 转发 到 Python 脚本 中 。 而 Python 脚本 则 会 读 取 sys .argyv 列 
表 中 的 命令 行 参数 。 这 个 批 处 理 文 件 让 你 不 必 每 次 运行 Python 程序 时 都 输入 完整 的 绝对 路 径 。 
此 外 ，epause 会 在 Python 脚本 结束 后 添加 “Press any key to continue...” 以 防 
止 程序 窗口 过 快 消失 。 建议 将 所 有 的 批 处 理 文 件 和 .py 文件 放 在 一 个 已 经 在 PATH 环境 变量 中 的 
文件 夹 中 ， 例 如 C:\Users\<USERNAME>。 

如 果 你 设置 了 一 个 批 处 理 文件 来 运行 Python 脚本 , 就 不 需要 打开 一 个 命令 行 窗 口 来 输入 完 
整 的 文件 路 径 和 Python 脚本 的 名 字 。 相 反 ， 只 需 按 win-R 快捷 键 ， 输 入 pythonScript (不 
需要 完整 的 pythonScript.bat 名 称 )， 然 后 按 回 车 键 运行 你 的 脚本 。 


B.3 在 macOS 上 运行 Python 程序 


在 macOS 上 ， 你 可 以 创建 一 个 文本 文件 ， 并 使 用 .command 扩展 名 ， 从 而 创建 一 个 shell 脚 
本 来 运行 Python 脚本 。 在 文本 编辑 器 〈 如 TextEdit) 中 创建 一 个 新 文件 ， 然 后 添加 以 下 内 容 : 


#!/usr/bin/env bash 
python3 /path/to/your/pythonScript.py 


以 .command 作为 扩展 名 ， 将 这 个 文件 保存 在 你 的 主 文件 夹 中 例如， 在 我 的 计算 机 上 是 
/Users/al)。 在 命令 行 窗 口中 ， 运 行 chmod u+x yourScript.command 使 这 个 shell 脚本 可 执 
行 。 现 在 你 可 以 单 击 Spotlight 图 标 ( 或 按 Command-Space 快 捷 键 ) 并 输入 yourScript.command 
来 运行 该 shell 脚本 ， 而 该 shell 脚本 又 会 运行 你 的 Python 脚本 。 


B.4 在 Ubuntu Linux 操作 系统 上 运行 Python 程序 


在 Ubuntu Linux 操作 系统 中 ， 从 Dash 菜单 中 运行 你 的 Python 脚本 需要 大 量 的 设置 。 假 设 
我 们 有 一 个 /home/al/example.py 脚本 你 的 Python 脚本 可 能 在 不 同 的 文件 夹 里 有 不 同 的 文件 
名 )， 我 们 要 在 Dash 中 运行 。 首 先 ， 使 用 gedit 等 文本 编辑 器 创建 一 个 新 文件 ， 内 容 如 下 : 


[Desktop Entry] 
Name=example .py 
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EXxec=gnome -terminal -- /home/al/example .sh 
Type=Application 
Categories=GTK;GNONME;Utility; 


将 此 文件 保存 到 /home/<al>/.local/share/applications 文件 夹 ( 用 你 自己 的 用 户 名 替换 al)， 名 
为 example.desktop。 如 果 你 的 文本 编辑 器 没有 显示 .local 文件 夹 《因为 以 句点 开头 的 文件 夹 被 隐藏 
了 )， 那 么 可 能 必须 将 它 先 保存 到 主 文件 夹 (例如 /home/al )， 再 打开 一 个 命令 行 窗 口 ， 用 
mv/home/al/example.desktop/home/al/ .local/share/applications 命令 移动 该 文件 。 

如 果 example.desktop 文件 位 于 /home/al/.local/share/applications 文件 夹 中 ， 你 就 可 以 按键 盘 
上 的 win 键 以 显示 Dash， 并 输入 example.py (或 你 在 Name 字段 中 输入 的 任何 内 容 )。 这 将 打开 
一 个 新 的 命令 行 窗口 (具体 来 说 ， 是 gnome-terminal 程序 )， 该 窗口 运行 shell 脚本 
/home/al/example.sh， 我 们 接 下 来 就 创建 它 。 

在 文本 编辑 器 中 ， 创 建 一 个 包含 以 下 内 容 的 新 文件 : 


#!/usr/bin/env bash 
python3 /home/al/example.py 
bash 


将 此 文件 保存 为 /home/al/example.sh。 这 是 一 个 shell 脚本 : 运行 一 系列 命令 行 命令 的 脚本 。 
这 个 shell 脚本 将 运行 我 们 的 Python 脚本 /home/al/ example.py， 然 后 运行 bash shell 程序 。 如 果 
没有 最 后 一 行 的 bash 命令 ，Python 脚本 完成 后 ， 命 令 行 窗 口 将 关闭 ， 你 会 错过 调用 print() 
函数 在 屏幕 上 显示 的 所 有 文本 。 

需要 为 这 个 shell 脚本 添加 执行 权限 ， 因 此 请 在 命令 行 窗 口中 运行 以 下 命令 : 


aleubuntu:-$ chmod u+x /home/al/example.sh 


设置 好 example.desktop 和 example.sh 文件 后 ， 现 在 可 以 通过 按 win 键 并 输入 example 来 运 
行 example.py 脚本 了 。 (或 你 在 example.desktop 文件 的 Name 字段 中 输入 的 任何 名 称 。) 


B.5 ”运行 Python 程序 时 禁用 断言 


你 可 以 禁用 Python 程序 中 的 assert 语句 ， 从 而 稍稍 提高 性 能 。 从 命令 行 窗 口 运行 Python 
时 ,在 python 或 python3 之 后 和 .py 文件 之 前 加 上 -0 开关 。 这 将 运行 程序 的 优化 版 本 ， 跳 过 
断言 检查 。 


如 果 你 曾经 花 几 小 时 来 重 命名 文件 或 更 新 成 干 上 万 个 电子 表格 的 单元 格 ， 你 就 知道 这 样 的 工作 有 多 繁琐 了 。 但 是 ， 
如 果 可 以 让 计算 机 蔡 你 完成 呢 ? 


在 本 书 中 ， 你 将 学 习 利用 Python 编程 在 几 分 钟 内 完成 手动 需要 几 小 时 才能 完成 的 工作 ， 无 须 事 先 具备 编程 经 验 。 
通过 阅读 本 书 , 你 会 学 习 Python 的 基本 知识 , 探索 Python 丰富 的 模块 库 , 并 完成 特定 的 任务 (例如 , 从 网 站 抓 取 数据 ， 
污 取 PDF 和 Word 文档 等 )。 本 书 还 包括 有 关 输 入 验证 的 实现 方法 ， 以 及 目 动 更 新 CSV 文件 的 技巧 。 一 旦 掌握 了 编程 


的 基础 知识 ， 你 就 可 以 毫 不 费力 地 创建 Python 程序 ， 自 动 化 地 完成 很 多 繁琐 的 工作 ， 包 括 : 


在 一 个 文件 或 多 个 文件 中 搜索 并 保存 同类 文本 ; 拆 分 、 合 并 PDF 文件 ， 以 及 为 其 加 水 印 和 加 密 ; 
创建 、 更 新 、 移动 和 重 命名 成 百 上 干 个 文件 和 文件 夹 ; 向 特定 人 群发 送 提醒 邮件 和 文本 通知 ; 

下 载 搜索 结果 和 处 理 Web 在 线 内 容 ; 同时 裁剪 、 调 整 、 编 辑 成 干 上 万 张 图 片 。 
ODO OI: 


本 书 作者 手把手 地 教 你 完成 每 个 程序 ， 并 通过 每 章 ( 除 第 1、2 章 外 ) 未 尾 的 实践 项 目 帮 你 改进 这 些 程序 ， 使 你 能 用 
开学 的 新 技能 来 自动 化 地 完成 类 似 的 任务 。 


阿尔 斯 维 加 特 是 一 位 专业 的 软件 开发 者 ， 他 教 小 孩 和 成 人 编程 。 他 为 初学 者 写 了 几 本 Python 图 书 ， 包括 《 Python 
评 戏 编程 快速 上 手 》《 Python 密码 学 编程 》 和 《 Python 和 Pygame 游 戏 开发 指南 》 等 。 
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